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内 容 提要 


本 书 是 一 部 UNIX 网 络 编程 的 经 典 之 作 ! 书 中 全 面 深入 地 介绍 了 如 
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本 书 的 第 1 版 本 于 1990 年 问世 ， 并 迅速 成 为 程序 员 学 习 网 络 编程 的 
权威 参考 书 。 时 至 今日 ， 计 算 机 网 络 技 术 已 发 生 了 翻天 和 履 地 的 变化 。 
只 要 看 看 第 1 版 给 出 的 用 于 征集 反馈 意见 的 地 址 
(“uunet!hsi!netbook”) 就 一 目 了 然 了 。 (有 多 少 读者 能 看 出 这 是 20 世 
纪 80 年 代 很 流行 的 UUCP 拨 号 网 络 的 地 址 ? ) 


现在 UUCP 网 络 已 经 很 罕见 了 ， 而 无 线 网 络 等 新 技术 则 变 得 无 处 
不 在 ! 在 这 种 背景 下 ， 痢 的 网 络 协 议和 编程 范 型 业已 开发 出 来 ， 但 程 
序 员 却 苦于 找 不 到 一 本 好 的 参考 书 来 学 习 这 些 复杂 的 新 技术 。 

这 本 书 填补 了 这 一 空 日 。 拥 有 本 书 旧 版 的 读者 一 定 想 要 一 个 新 的 
版 本 来 学 习 新 的 编程 方法 ， 了 人 解 IPv6 等 下 一 代 协 议 方面 的 新 内 容 。 所 
有 人 都 非常 期 待 本 书 ， 因 为 它 完美 地 结合 了 实践 经 验 、 历 史 视 角 以 及 
在 本 领域 浸 洲 多 年 才能 获得 的 透彻 理解 。 

阅读 本 书 是 一 种 至 受 ， 我 收获 颇 丰 。 相 信 大 家 定 会 有 同感 。 


Sam Leffler 


概述 


本 书面 癌 的 读者 是 那些 布 望 目 己 编写 的 程序 能 使 用 称 为 套 接 字 
(socket) 的 API 进 行 彼此 通信 的 人 人。 有些 读者 可 能 已 经 非常 熟悉 套 接 
字 了 ， 因 为 这 个 模型 几乎 已 经 成 了 网 络 编程 的 同义词 ， 但 有 些 读者 可 
能 仍 需要 从 头 开 始 学 习 。 本 书 想 达到 的 目标 是 癌 大 家 提供 网 络 编程 指 
导 “。 这 些 内 容 不 仅 适 用 于 专业 人 士 ， 也 适用 于 初学 者 ; 不仅 适 用 于 维 
护 已 有 代码 ， 也 适用 于 开发 新 的 网 络 应 用 程序 ， 此 外 ， 还 适用 于 那些 
只 是 想 了 解 一 下 目 己 系统 中 网 络 组 件 的 工作 原理 的 人 。 


书 中 的 所 有 示例 都 是 在 Unix 系 统 上 测试 通过 的 真实 的 、 可 运行 的 
人 代码。 但是， 考虑 到 许多 非 Unix 的 操作 系统 也 文 持 套 接 字 API， 因 而 
我 们 选取 的 示例 与 所 讲述 的 一 般 性 概念 ， 在 很 大 程度 上 是 与 操作 系统 
无 天 的 。 几 乎 每 种 操作 系统 都 提供 了 大 量 的 网 络 应 用 程序 ， 如 网 页 浏 
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TIF) Unix St 78 PU ZZ EE PAGAN T ESP ZA Unix AS | AT CP/IPHI A 
关 背 景 知识 。 需 要 更 详尽 的 背景 知识 时 ， 我 们 会 指引 读者 查阅 其 他 书 
籍 。 本 书 中 经 常 提 到 以 下 4 本 书 ， 我 们 将 其 简 记 如 下 : 


APUE: Advanced Programming in the UNIX Environment [Stevens 
1992]; 

TCPv1: TCP/IP Illustrated, Volume 1 [Stevens 1994]; 

TCPv2: TCP/IP Illustrated, Volume 2 [Wright and Stevens 1995]; 
TCPv3: TCP/IP Illustrated, Volume 3 [Stevens 1996] ° 


其 中 TCPv2 包 含 了 与 本 书 内 容 密切 相关 的 细节 ， 它 描述 并 给 出 了 
套 接 字 API 中 网 络 编程 函数 (socket、bind、connect 等 ) 的 真实 
4.4BSD 实 现 。 如 果 已 经 理解 某 个 特性 的 实现 ， 那 么 在 应 用 程序 中 使 用 
该 特性 就 更 有 意义 了 ° 


与 第 2 版 的 区 别 


从 20 世 纪 80 年 代 开 始 ， 套 接 字 束 关 不 多 征 现 在 这 个 样子 了 。 时 至 
今日 ， 套 接 字 仍然 是 网 络 API 的 首选 ， 其 最 初 的 设计 的 确 值得 称道 。 
因此 ， 当 读者 发 现 我 们 对 出 版 于 1998 年 的 第 2 版 又 做 了 不 少 改动 时 ， 可 
能 会 觉得 恢 讶 。 本 书 中 所 做 的 改动 归纳 如 下 。 


新 版 本 包含 了 IPv6 的 最 新 信息 。 在 第 2 版 出 版 时 ，IPv6 疝 处 于 草案 
阶段 ， 这 些 年 来 已 经 有 所 发 展 。 

更 新 了 全 部 函数 和 示例 的 描述 ， 以 反映 最 新 的 POSIX 规 苑 
(POSIX 1003.1-2001) ， 即 Single Unix Specification Version 3 ° 
删 去 了 X/Open 传输 接口 (XTI) 的 内 容 。 这 个 API 已 经 不 常用 了 ， 

连 最 狐 的 POSIX 规范 也 不 再 提 到 。 

删 去 了 事务 TCP 协 议 (T/TCP) 的 内 容 。 

源 增 了 三 章 用 于 描述 一 种 相对 较 新 的 传输 协议 一 -SCTP。 这 个 可 

靠 的 面 同 消息 的 协议 能 够 在 两 个 端点 之 间 提 供 多 个 流 ， 并 为 多 归 

属 技 术 提 供 传输 层 支 持 。 该 协议 最 初 是 为 了 在 因特网 上 传输 电话 

信号 而 设计 的 ， 但 它 的 一 些 特性 可 以 用 于 许多 应 用 。 

源 增 一 章 描述 密 钥 管理 套 接 字 ， 该 套 接 字 可 用 于 网 际 协议 安全 
(IPsec) 和 其 他 网 络 安 全 服务 。 

第 2 版 中 使 用 的 机 絮 及 Unix 变 体 都 按 最 新 版 本 更 新 ， 示 例 也 根据 机 

铬 的 特性 做 了 修改 。 许 多 情况 下 ， 修 改 示 例 是 因为 操作 系统 厂商 

修正 了 程序 缺陷 或 者 新 增 了 特性 。 但 读者 可 以 想见 ， 新 的 缺陷 总 

能 不 时 地 被 发 现 。 本 书 中 用 于 测试 示例 的 机 器 如 下 : 

运行 MacOS/X 的 Apple Power PC; 

运行 HP-UX 11i 的 HP PA-RISC; 

运行 AIX 5.1 的 IBM Power PC; 

运行 FreeBSD 4.8 的 Intel x86; 

运行 Linux 的 Intel x86; 

运行 FreeBSD 5.1 的 Sun SPARC; 

运行 Solaris 9 的 Sun SPARC ° 


这 些 机 姨 的 具体 用 法 见 图 1-16。 
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ARRON B24 (《UNIX 网 络 编程 卷 2， 进 程 间 通信 》) 基于 本 
卷 的 内 容 进一步 讨论 了 消息 传递 、 同 步 、 共 至 内 存 及 远程 过 程 调 用 。 


如 何 使 用 本 书 


本 书 既 可 以 作为 网 络 编程 的 教程 ， 也 可 以 作为 有 经 验 的 程序 员 的 
参考 书 。 用 作 网 络 编程 的 教程 或 入 门 级 教材 时 ， 重 点 应 放 在 第 二 部 分 
(第 3 章 至 第 11 章 ) ， 然 后 可 以 看 看 其 他 感 兴趣 的 主题 。 第 二 部 分 包含 
了 TCP 和 UDP 的 基本 套 接 字 函数 ， 以 及 SCTP、1/O 多 路 复 用 、 套 接 子 
选项 和 基本 名 字 与 地 址 的 转换 。 所 有 读者 都 应 该 阅读 第 1 章 ， 尤 其 是 
147, SATE RES RL o Bee UT DURS BSAA 
景 ， 选 读 第 2 章 ， 或 许 还 有 附录 A。 第 三 部 分 的 多 数 章节 可 以 彼此 独立 
地 进行 阅读 。 

为 了 方便 读者 把 本 书 作为 参考 书 ， 本 书 提 供 了 完整 的 全 文 索引 ， 
并 在 最 后 几 页 总 结 了 每 个 函数 和 结构 的 详细 描述 在 正文 中 的 哪里 可 以 
找到 。 为 了 给 不 按 顺序 阅读 本 书 的 读者 提供 方便 ， 我 们 在 全 书 中 为 相 
KEET KEWLI H ° 


源 代 码 与 勘误 


书 中 所 有 示例 的 源 代 码 可 以 从 www.unpbook.com 获 得 9。 学 习 网 络 
编程 的 最 好 方法 殉 是 下 载 这 些 程序 ， 对 其 进行 修改 和 改进 。 只 有 这 样 
实际 编写 代码 才能 深入 理解 有 关 概 念 和 方法 。 每 章 末尾 提供 了 大 量 的 
习题 ， 大 部 分 在 附录 E 中 给 出 管 案 。 


本 书 的 最 新 勘误 表 也 可 以 在 上 述 网 站 获取 。 


致谢 


本 书 第 1 版 和 第 2 版 由 W. Richard Stevens2 73855, ft) A52-F 1999 
年 9 月 1 日 去 世 。Richard 的 著作 体现 了 非常 高 的 水 准 ， 被 公认 为 是 精 
炼 、 详 实 且 极 具 可 读 性 的 艺术 作品 。 在 撰写 这 一 修订 版 的 过 程 中 ， 我 
们 力图 保持 Richard 之 前 版 本 的 高 质量 和 全 面 性 ， 这 方面 的 任何 不 足 都 
完全 是 新 作者 的 过 错 。 


任何 作者 的 著作 离 不 开 家 人 与 朋友 的 支持 。Bill Fenner 在 此 感谢 爱 
Peggy (沙滩 1/4 英 里 赛 冠 军 ) 与 好 友 Christopher Boyd 在 本 书 撰写 过 
程 中 承担 了 全 部 的 家 务 ， 还 要 感谢 朋友 Jerry Winner， 他 的 激励 是 无 价 
的 。 同 样 地 ，Andy Rudoff 要 特别 感谢 他 的 妻子 Ellen 和 两 个 女儿 Jo、 
a 。 没 有 你 们 的 文 持 ， 我 们 不 可 能 完成 本 


思科 公司 的 Randall Stewart 提 供 了 许多 SCTP 的 材料 ， 非 常 感谢 他 
S e WAP THA LE, ASN BE IC 39 8 IU A 8H 
S 题 o 


本 书 的 审 稿 人 给 出 了 宇 贯 的 反馈 意见 。 他 们 发 现 了 一 些 错误 ， 指 
出 了 一 些 需 要 更 多 解释 的 地 方 ， 并 对 文字 和 代码 示例 提出 了 一 些 改进 
建议 。 作 者 在 这 里 对 如 下 审 稿 人 表示 感谢 : James Carlson、Wu-Chang 
Feng ^ Rick Jones ^ Brian Kernighan ` Sam Leffler ^ John McCann ^ 
Craig Metz ` Ian Lance Taylor ` David Schwartz 和 Gary Wright ° 


许多 个 人 及 其 单位 为 本 书 中 一 些 示 例 的 测试 提供 了 帮助 ， 他 们 义 
务 回 我 们 出 借 系统 、 软 件 或 为 我 们 提供 系统 访问 权限 。 


。IBM 奥 斯 洒 实 验 室 的 Jessie Haug 提 供 了 AIX 系 统 和 编译 器 。 
。 惠普 公司 的 Rick Jones 和 William Gilliam 为 我 们 提供 了 运行 HP-UX 
的 多 个 系统 的 访问 权限 。 


与 Addison Wesley 出 版 社 的 员工 合作 非常 愉快 ， 他 们 是 Noreen 
Regina ` Kathleen Caren ^ Dan DePasquale 和 Anthony Gemellaro。 要 特 
别 感 谢 本 书 的 编辑 Mary Franz ° 


为 了 延续 Rich Stevens] MAS 〈\ 不 过 该 风格 与 流行 的 风格 相反 ) ， 
我 们 用 James Clark 编 写 的 优秀 的 Groff 包 为 本 书 排 版 ， 用 gpic 程 序 绘制 
插图 (其 中 用 到 了 许多 由 Gary Wright Siz) ， 用 gtbl 程 序 生成 了 
表格 ， 我 们 为 全 书 添加 了 索引 ， 并 设计 了 最 终 的 版 式 。 有 录入 源 代 码 时 
用 到 了 Dave Hanson 的 loom 程 序 和 Gary Wright 写 的 一 些 脚本 。 在 生成 最 
终 索 引 的 过 程 中 ， 还 用 到 了 Jon Bentley Brian Kernighan 编 写 的 一 组 
awk 脚本 。 


欢迎 读者 以 电子 邮件 的 方式 反馈 意见 、 提 出 建议 或 订正 错误 。 


Bill Fenner 
加 利 福 尼 亚 州 伍德 赛 德 市 
Andrew M. Rudoff 
科罗拉多 州 博 尔 德 市 
2003 年 10 月 
authors@unpbook.com 
http://www.unpbook.com 


@ 书 中 所 有 示例 的 源 代码 也 可 以 从 图 灵 网 站 = (www.turingbook.com) 
本 书 网 页 免费 注册 下 载 。 编者 注 


第 一 部 分 简介 和 TCP/IP 


第 1 章 简介 
1.1 概述 


要 编写 通过 计算 机 网 络 通 信 的 程序 ， 首 移 要 确定 这 些 程序 相互 通 
信 所 用 的 协议 (protocol) 。 在 深入 设计 一 个 协议 的 细节 之 前 ， 应 该 从 
高 层次 决断 通信 由 哪个 程序 发 起 以 及 响应 在 何 时 产生 。 举 例 来 说 ， 一 
般 认 为 Web 服 务 器 程序 是 一 个 长 时 间 运 行 的 程序 〈 即 所 谓 的 守护 程 
FF, daemon) ， 它 只 在 响应 来 自 网 络 的 请 求 时 才 发 送 网 络 消 息 。 协 议 
的 另 一 端 是 Web 客户 程 序 ， 如 某 种 浏 席 妖 ， 与 服务 器 进程 的 通信 和 总 是 
由 客户 进程 发 起 。 大 多 数 网 络 应 用 就 是 按照 划分 成 客户 (client) 和 服 
务 器 (server) 9 来 组 织 的 。 在 设计 网 络 应 用 2 时 ， 确 定 总 是 由 客户 发 
起 请 求 往往 能 够 简化 协议 和 程序 2 本身。 当然 一 些 较为 复杂 的 网 络 应 
用 还 需要 异步 回调 (asynchron-ous callback) 通 信 ， 世 就 是 由 服务 器 问 客 
户 发 起 请 求 消 上 筷 。 然 而 坚持 采纳 图 1-1 所 示 的 基本 客户 /服务 絮 模 型 的 
网 络 应 用 毕竟 要 普 裔 得 多 。 


应 用 协议 


图 1-1 网 络 应 用 : 客户 和 服务 器 


通常 客户 每 次 只 与 一 个 服务 器 通信 ， 不 过 以 使 用 Web 浏 吕 右 为 
例 ， 我 们 也 许 在 10 分 钟 内 束 可 以 与 许多 不 同 的 Web 服 务 器 通信 。 从 服 
务 器 的 角度 来 看 ， 一 个 服务 右 同 时 与 多 个 客户 通信 并 不 稀奇 ， 见 图 1- 
> 本 书后 面 将 介绍 大 干 种 让 一 个 服务 占 同 时 处 理 多 个 客户 请 求 的 方 
1E o 


图 1-2 一 个 服务 器 同时 处 理 多 个 客户 的 请 求 


可 认为 客户 与 服务 器 之 间 是 通过 某 个 网 络 协 议 通信 的 ， 但 实际 
上 ， 这 样 的 通信 通常 涉及 多 个 网 络 协 议 层 。 本 书 的 焦点 是 TCP/IP 协 议 
族 ， 也 称 为 网 际 协议 族 。 举 例 来 说 ，Web 客 户 与 服务 器 之 间 使 用 TCP 
(Transmission Control Protocol， 传 输 控 制 协议 ) 通信 。TCP 又 转 而 使 
HIP (Internet Protocol， 网 际 协议 ) 通信 ，IP 再 通过 某 种 形式 的 数据 链 
oa 。 如 果 客 户 与 服务 器 处 于 同一 个 以 太 网 ， 束 有 图 1-3 所 示 的 通 
BI ° 


图 1-3 ”客户 与 服务 器 使 用 TCP 在 同一 个 以 太 网 中 通信 


尽管 客户 与 服务 器 之 间 使 用 某 个 应 用 协议 通信 ， 传 输 层 却 使 用 
TCP 通 信 。 注 意 ， 客 户 与 服务 器 之 间 的 信息 流 在 其 中 一 端 是 癌 下 通过 
协议 栈 的 ， 路 越 网 络 后 ， 在 另 一 端 则 是 同上 通过 协议 栈 的 。 另 外 注 
意 ， 客 户 和 服务 器 通常 是 用 户 进 程 ， 而 TCP 和 了 协议 通常 是 内 核 中 协 
议 栈 的 一 部 分 。 我 们 在 图 1-3 右 边 标 出 了 4 个 层 。 


本 书 讨 论 的 协议 不 限于 TCP 和 IP。 有 些 客户 和 服务 器 改 用 UDP 
(User Datagram Protocol， 用 户 数据 报 协 议 ) 而 不 是 TCP， 第 2 章 将 详 
细 介 绍 这 两 个 协议 。 此 外 ， 本 书 使 用 术语 “IP” 来 称谓 的 那个 协议 ， 自 
20 世 纪 80 年 代 早 期 以 来 一 直 在 使 用 ， 其 实 其 正式 名 称 是 IPv4 (IP 
version 4，IP 版 本 4) 。IPv4 的 一 个 新 版 本 IPv6 (IP version 6，IP 版 本 
6) 是 在 20 世 纪 90 年 代 中 期 开发 出 来 的 ， 将 来 会 取代 IPv4。 本 书 既 讨论 
使 用 IPv4 的 网 络 应 用 程序 的 开发 ， 也 讨论 使 用 IPv6 的 网 络 应 用 程序 的 
其 他 协议 。 


同一 网 络 应 用 的 客户 和 服务 器 无 需 如 图 1-3 所 示 处 于 同一 个 局 域 网 
(local area network, LAN) 。 例 如 ， 图 1-4 展 示 了 处 于 不 同 局 域 网 中 
的 客户 和 服务 器 ， 而 这 两 个 局 域 网 是 使 用 路 由 器 (router) 连接 到 广 域 
网 (wide area network, WAN) 的 。 
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图 1-4 ”处 于 不 同 局 域 网 的 客户 主机 和 服务 器 主机 通过 广域网 连接 


路 由 器 是 广域网 的 架构 设备 。 当 今 最 大 的 广域网 是 因特网 
(Internet) 。 许 多 公司 也 构建 自己 的 广域网 ， 而 这 些 私 用 的 广域网 既 
可 以 连接 到 因特网 ， 也 可 以 不 连接 到 因特网 。 


本 章 其 余部 分 将 概述 多 个 主题 ， 这 些 主 题 在 后 续 和 章节 中 还 会 具体 
介绍 。 我 们 从 一 个 尽管 简单 却 完整 的 TCP 客 户 程序 开始 ， 它 展示 了 全 
书 都 会 遇 到 的 许多 函数 调用 和 概念 。 这 个 客户 程序 只 能 在 IPv4 上 运 
行 ， 不 过 我 们 会 给 出 让 它 在 IPv6 上 运行 所 需 进行 的 修改 。 更 好 的 办 法 
古 编 写 独 立 于 协议 的 客户 和 服务 器 程序 ， 这 在 第 11 草 中 会 讨论 。 本 章 
同时 展示 一 个 与 该 TCP 客 户 程 序 配合 工作 的 完整 的 TCP 服 务 器 程序 。 


为 了 简化 代码 ， 我 们 对 本 书 中 要 调用 的 大 多 数 系统 范 数 定义 了 各 
目的 包 于 函 数 。 多 数 情 况 下 我 们 可 以 使 用 这 些 包 夺 钞 数 来 检查 错误 ， 
输出 适当 的 消 恩 ， 以 及 在 出 错时 终止 程序 的 运行 。 我 们 还 给 出 了 本 书 


中 大 多 数 例 子 所 用 的 测试 网 络 、 主 机 、 路 由 器 以 及 它们 的 主机 名 、 卫 
地 址 和 操作 系统 。 

如 今 讨 论 Unix 时 经 常 使 用 POSIX 一 词 ， 它 是 一 种 被 多 数 厂 商 采 纳 
的 标准 。 我 们 将 介绍 POSIX 的 历史 以 及 它 对 本 书 所 讲述 的 API 的 影响 ， 
并 介绍 该 领域 的 其 他 主要 标准 。 


1.2 


一 个 简单 的 时 间 获 取 客 户 程 序 


让 我 们 考虑 一 个 具体 的 例子 ， 引 入 将 在 本 书 中 中 到 的 许多 概念 和 


说 法 。 图 5 所 示 的 是 TCP 当 前 时 间 查 
与 其 服务 器 建立 一 个 TCP 连 接 后 ， 服 务 
当前 时 间 和 日 期 。 
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询 客 户 程序 的 一 个 实现 。 该 客户 
绥 以 直观 可 读 格 式 位 单 地 送 回 
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图 1-5 TCP 时 间 获 取 客 户 程 序 


这 束 古 本 书 用 于 展示 所 有 源 代码 的 格式 。 每 个 非 空 行 都 被 编排 行 
号 。 如 稍 后 所 示 ， 代 码 正文 讲解 部 分 一 开始 标注 该 段 代码 起 始 与 结 
的 行 号 。 有 的 段落 会 以 一 个 简短 的 、 描 述 性 的 醒目 标题 起 头 ， 对 所 讲 
解 代 码 段 进行 概要 说 明 。 


每 个 源 代码 段 起 始 与 结束 处 的 水 平 线 标 出 了 该 代码 段 所 在 的 源 代 
码 文件 名 ， 对 于 本 例 就 是 intro 目 录 下 的 daytimetcpc1Li.c 文 件 
(intro/daytimetcpcli.c) 。 本 书 所 有 例子 的 源 代码 都 可 免费 
获得 〈 见 前 言 ) ， 在 此 标注 它们 的 文件 名 便于 读者 找到 其 源 文件 。 在 
ee gs 间 ， 编 译 、 运 行 特别 是 修改 这 些 程序 是 学 习 网 络 编程 概念 
T 


整 本 书 中 我 们 随时 会 插入 缩 进 的 小 字号 段落 (如 此 处 所 示 ) 来 说 
明 实 现 的 细节 和 历史 上 的 观点 。 


如 果 编 译 该 程序 生成 默认 的 a .out 可 执行 文件 后 执行 它 ， 我 们 会 
得 到 如 下 结果 : 


solaris % a.out 206.168.112.96 我 们 的 输入 


Mon May 26 20:58:40 2003 程序 的 输出 


当 我 们 展示 交互 的 输入 和 输出 时 ， 输 入 总 是 采用 加 粗 的 等 金字 
体 ， 而 计算 机 的 输出 总 是 采用 不 加 粗 的 等 宫 字 体 。 注 释 用 宋体 字 加 在 
右边 。 作 为 shell 提 示 一 部 分 的 系统 名 字 (本 例 中 为 solaris) 指明 在 哪个 
主机 上 执行 该 命令 。 图 1-16 展 示 了 用 于 运行 本 书 中 大 多 数 例子 的 各 个 
系统 ， 它 们 的 主机 名 本 里 通 党 就 说 明了 各 目的 操作 系统 。 


在 这 个 短 短 27 行 的 程序 中 有 许多 细节 值得 考虑 。 这 里 我 们 简短 地 
提 一 下 ， 目 的 是 让 初次 遇 到 网 络 程序 的 读者 有 所 准备 ， 本 书后 面 会 更 
详细 地 说 明 这 些 内 容 。 
包含 头 文件 

1 包含 我 们 上 自己 编写 的 名 为 unp,h 的 头 文件 ， 见 D.1 节 。 该 头 文 
件 包 含 了 大 部 分 网 络 程序 都 需要 的 许多 系统 头 文件 ， 并 定义 了 所 用 到 
的 各 种 常 值 S (如 MAXLINE) ° 


命令 行 参数 


2-3 ”这 是 main 函 数 的 定义 ， 其 形式 参数 就 是 命令 行 参数 。 本 书 
中 的 代码 假设 使 用 ANSI C 编 译 器 (也 称 为 1SO C 编 译 器 ) 多 


创建 TCP 套 接 字 


10~11 socket 函 数 创建 一 个 网 际 (AF INET) 字 节 流 
(SOCK STREAM) 套 接 字 ， 它 是 TCP 套 接 字 的 花哨 名 字 。 该 函数 返回 
一 个 小 整数 描述 符 ， 以 后 的 所 有 函数 调用 (如 随后 的 connect 和 
read) 就 用 该 描述 符 来 标识 这 个 套 接 字 。 


if 语句 包含 3 个 操作 ， 调 用 socket 画 数 ， 把 返回 值 赋 给 变量 
sockfd， 再 测试 所 赋 的 这 个 值 是 否 小 于 0。 虽 然 我 们 可 以 把 该 语句 分 
割 成 两 条 C 语 句 ， 


sockfd = socket(AF INET, SOCK STREAM, 0); 
if (sockfd < 0) 


但 是 把 这 两 行 合并 成 一 行 却 是 常见 的 C 语 言 习 惯用 法 。 按 照 C 语 言 
的 优先 规则 〈 小 于 运算 符 的 优先 级 高 于 赋值 运算 符 ) » Reece AAA 
值 语句 外 边 的 那 对 括号 是 必需 的 。 作 为 一 种 编码 风格 ， 作 者 总 是 在 这 
样 的 两 个 天 括号 间 加 一 个 空格 ， 提 示 比 较 运 算 的 左 侧 同时 也 是 一 个 赋 
值 运算 。 (这 种 风格 借鉴 自 Minix 源 代码 [Tenenbaum 1987] °) 该 程 
序 稍 后 的 while 语 句 也 使 用 相同 的 样式 。 


后 面 我 们 将 遇 到 术语 套 接 字 (socket?) 的 许多 不 同 用 法 。 首 先 ， 
我 们 正在 使 用 的 API 称 为 套 接 字 API (sockets API) 。 上 一 段 中 名 为 
socket 的 函数 就 是 套 接 字 API 的 一 部 分 。 上 一 段 中 我 们 还 提 到 了 “TCP 
套 接 字 ”， 它 是 “TCP 端 点 ”(TCP endpoint) 的 同义词 。 


如 果 socket 函 数 调用 失败 ， 我 们 束 调 用 上 自己 的 err_sys 函 数 放 
弃 程 序 运行 。err_sys 函 数 输出 我 们 作为 参数 提供 的 出 错 消 轧 以 及 所 
发 生 的 系统 错误 的 描述 (例如 出 自 socket 函 数 的 可 能 错误 之 
一 “Proto-col not supported” (协议 不 受 文 持 ) ) ， 然 后 终止 进程 。 这 个 
函数 和 以 err_ 开 头 的 其 他 者 干 个 函数 都 是 我 们 目 行 编写 的 ， 它 们 的 调 
用 将 贯穿 全 书 ，D.3 节 会 描述 这 些 函 数 。 


指定 服务 器 的 IP 地 址 和 端口 


12-16 我 们 把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 网 际 套 接 字 地 
址 结构 〈 一 个 名 为 servaddr 的 sockaddr_in 结 构 变 量 ) 。 使 用 
bzero 把 整个 结构 清 零 后 ， 置 地 址 族 为 AF_INET， 端 口号 为 13 (这 是 
时 间 获 取 服 务 器 的 众所周知 端口 ， 支 持 该 服务 的 任何 TCP/IP 主 机 都 使 
用 这 个 端口 号 ， 见 图 2-18) ，IP 地 址 为 第 一 个 命令 行 参数 的 值 
(argv[1]) 。 网 际 套 接 字 地 址 结构 中 IP 地 址 和 端口 号 这 两 个 成 员 必 
须 使 用 特定 格式 ， 为 此 我 们 调用 库 函 数 htons (“主机 到 网 络 短 整 
数 ”) 去 转换 二 进 制 端口 号 ， 又 调用 库 函 数 inet_pton (“呈现 形式 到 
RUE”) 去 把 ASCII 命 令 行 参数 (例如 运行 本 例子 所 用 的 
206.168.112.96) 转换 为 合适 的 格式 。 


bzero 不 是 一 个 ANSI C 函 数 。 它 起 源 于 早期 的 Berkeley 网 络 编程 
代码 。 不 过 我 们 在 整 本 书 中 使 用 它 而 不 用 ANSI C 的 memset KZ, 
Jjbzero ( 带 2 个 参数 ) 比 memset ( 带 3 个 参数 ) 更 好 记忆 。 几 乎 所 
有 支持 套 接 字 API 的 厂商 都 提供 bzero， 如 果 没 有 ， 那 么 可 以 使 用 
unp .h 头 文件 中 提供 的 该 男 数 的 安定 义 。 


事实 上 ， 在 TCPv3 一 书 首次 印刷 时 ， 作 者 在 10 处 出 现 memset 郴 数 
的 地 方 犯 了 错 ， 互 换 了 第 二 和 第 三 个 参数 。C 编 译 器 发 现 不 了 这 个 错 
误 ， 因 为 这 两 个 参数 的 类 型 是 相同 的 。 〈 其 实 第 二 个 参数 是 Int 类 
型 ， 第 二 个 参数 是 size_t， 通 常 定义 为 unsigned int 类 型 ， 然 而 
分 别 指定 给 这 两 个 参数 的 值 为 0 和 16， 它 们 对 于 两 个 参数 的 类 型 同样 可 
以 接受 。) 对 memset 的 这 些 调用 仍然 正常 ， 不 过 没 做 任何 事 ， 因 为 
待 初始 化 的 字 节 数 被 指定 成 了 0。 程 序 之 所 以 仍然 工作 是 因为 只 有 少数 
套 接 字画 数 要 求 网 际 套 接 字 地 址 结构 的 最 后 8 个 字 节 置 0。 无 论 如 何 ， 
这 确实 是 一 个 错误 ， 且 是 一 个 通过 使 用 bzero 函 数 可 以 避免 的 错误 ， 
B ree C 编 译 器 总 能 发 现 bzero 的 两 个 参数 被 互 换 
的 错误 。 


此 处 也 许 是 你 第 一 次 遇 到 inet_pton 画 数 。 它 是 一 个 支持 IPv6 
( 详 见 附录 A) 的 新 函数 。 以 前 的 代码 使 用 ijnet_addr 函 数 来 把 
ASCII 点 分 十 进 制 数 串 变换 成 正确 的 格式 ， 不 过 它 有 不 少 局 限 ， 而 这 
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建立 与 服务 器 的 连接 


17-18 connect 函 数 应 用 于 一 个 TCP 套 接 字 时 ， 将 与 由 它 的 第 
二 个 参数 指向 的 套 接 字 地 址 结构 指定 的 服务 器 建立 一 个 TCP 连 接 。 该 
套 接 字 地 址 结构 的 长 度 也 必须 作为 该 函数 的 第 三 个 参数 指定 ， 对 于 网 
际 套 接 字 地 址 结构 ， 我 们 总 是 使 用 C 语 言 的 sizeof 操 作 符 由 编译 器 来 
计算 这 个 长 度 。 


在 头 文 件 unp.h 中 ， 我 们 使 用 #define 把 SA 定义 为 struct 
sockaddr， 也 就 是 通用 套 接 字 地 址 结构 。 每 当 一 个 套 接 字画 数 需 要 
一 个 指向 某 个 套 接 字 地 址 结构 的 指针 时 ， 这 个 指针 必须 强制 类 型 转换 
成 一 个 指向 通用 套 接 字 地 址 结构 的 指针 。 这 是 因为 套 接 字 函 数 早 于 
ANSI C 标 准 ，20 世 纪 80 年 代 早期 开发 这 些 男 数 时 ，ANSIC 的 void * 

旨 针 类 型 还 不 可 用 。 问 题 是 “struct sockaddr” 长 达 15 个 字符 ， 往 
往 造 成 源 代码 行 超出 屏幕 (或 者 书页 ， 若 是 排 印 在 书 上 ) 的 右边 毕 ， 
oe e 我 们 将 在 解释 图 3-3 时 详细 讨论 通用 套 接 字 地 
址 结构 。 


读 入 并 输出 服务 器 的 应 答 
19-25 我 们 使 用 read 函 数 读 取 服 务 器 的 应 答 ， 并 用 标准 的 IO 


函数 fputs 输 出 结果 。2 使 用 TCP 时 必须 小 心 ， 因 为 TCP 是 一 个 没有 记 
E 。 服 务 器 的 应 答 通 常 是 如 下 格式 的 26 字 节 字 符 


Mon May 26 20:58:40 2003\r\n 


其 中 ，\r 是 ASCII 回 车 符 ，\n 是 ASCII 换 行 符 。 使 用 字 节 流 协议 
的 情况 下 ， 这 26 个 字 节 可 以 有 多 种 返回 方式 : 既 可 以 是 包含 所 有 26 个 
字 节 的 单个 TCP 分 节日， 也 可 以 是 每 个 分 节 只 含 1 个 字 节 的 26 个 TCP 分 
节 ， 还 可 以 是 总 共 26 个 字 节 的 任何 其 他 组 合 。 通 常服 务 器 返回 包含 所 
有 26 个 字 和 的 单个 分 和 ， 但 是 如 果 数 据 量 很 大 ， 我 们 就 不 能 确保 一 次 
read 调 用 能 返回 服务 器 的 整个 应 答 。 因 此 从 TCP 套 接 字 读 取 数据 时 ， 


我 们 总 是 需要 把 read 编 写 在 某 个 循环 中 ， 当 read 返 回 0 (WHA mA 
闭 连接 ) 或 负 值 (表明 发 生 错 误 ) 时 终止 循环 。 


本 例 中 ， 服 务 器 关闭 连接 表征 记录 的 结束 。HTTP (Hypertext 
Transfer Protocol， 超 文本 传送 协议 ) 的 1.0 版 本 也 采用 这 种 技术 。 还 可 
以 用 其 他 技术 标记 记录 结束 。 例 如 ，SMTP (Simple Mail Transfer 
Protocol， 人 简单 邮件 传送 协议 ) 使 用 由 ASCII 回 车 符 后 跟 换 行 符 构 成 的 2 
字 节 序列 标记 记录 的 结束 ，Sun 远 程 过 程 调 用 (Remote Procedure 
Call, RPC) 以 及 域名 系统 (Domain Name System, DNS) 在 使 用 TCP 
承载 应 用 数据 时 ， 在 每 个 要 发 送 的 记录 之 前 放置 一 个 二 进 制 的 计数 
值 ， 给 出 这 个 记录 的 长 度 。 这 里 的 重要 概念 是 TCP 本 号 并 不 提供 记录 
结束 标志 : 如 果 应 用 程序 需要 确定 记录 的 边界 ， 它 就 要 上 自己 去 实现 ， 
已 有 一 些 常 用 的 方法 可 供 选 择 。 


终止 程序 


26 ”exit 终止 程序 运行 。Unix 在 一 个 进程 终止 时 总 是 关闭 该 进 
程 所 有 打开 的 描述 符 ， 我 们 的 TCP 套 接 字 就 此 被 关闭 。 


[9] 
刚才 已 提 过 ， 本 书后 面 会 对 刚才 讲述 的 所 有 概念 深入 进行 探讨 。 


1.3 ”协议 无 关 性 


图 1-5 中 的 程序 是 与 IPv4 协 议 相 关 的 : 我 们 分 配 并 初始 化 一 个 
sockaddr_in 类 型 的 结构 ， 把 该 结构 的 协议 族 成 员 设置 为 
AF. INET, 378% socket NAVAN — SBR NAF_INET ° 


为 了 让 图 1-5 中 的 程序 能 够 在 IPv6 上 运行 ， 我 们 必须 修改 这 段 代 
码 。 图 1-6 所 示 的 是 一 个 能 够 在 PPv6 上 运行 的 版 本 ， 其 中 改动 之 处 用 加 
粗 的 等 宽 字 体 突出 显示 。 


un fre avium e 
tincluds "urs .h” 


3 int 


3 main(int argc, char **argvi 


44 
3 int scckfd, n; 
char rezvline[MAZLINE + 1l; 


7 


struct sockaddr in6 servadilr: 


if (arge != 2) 


err qüit í "usa&ze: a.out Vlvaciiivess>"); 


zd if | (sockia = socket (Ar INETÉ, SOCK_STREAM, 2)) 
Y 
r ) 


2 hrerc [eservecddr, sivenfiservaddrip: 
23 servaddr.sir€ family = Ar INETÉ: 
-4 servaddr.sin6 port = h-ors(22): /+* daewvtire server '/ 
=a if (inac_pton (AF INET6, argv[i, ssexvaddr.siné addr) <= 0) 
= err quit ("inet ston error for bs", aergv Lli: 


7 I£o(onnmescl (eee fF, (RN $Y neransikio, dee (seevadlr)) < 0) 


narr syni"corrn^t error"); 
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图 1-6 ”适合 于 IPv6 的 图 1-5 所 示 程 序 的 修改 版 


我 们 只 修改 了 程序 的 5 行 代码 ， 得 到 的 却 是 另 一 个 与 协议 相关 的 程 
序 : 这 回 是 与 IPv6 协 议 相 关 的 。 更 好 的 做 法 是 编写 协议 无 关 的 程序 。 
图 11-11 将 给 出 本 客户 程序 的 协议 无 关 版 本 ， 它 使 用 了 getaddrinfo 
函数 (由 tcp_connect 画 数 调 用 ) ° 


这 两 个 程序 的 另 一 个 不 足 之 处 是 : 用 户 必 须 以 点 分 十 进 制 数 格式 
给 出 服务 器 的 IP 地 址 〈 如 适合 于 IPv4 版 本 的 206.168.112.219) 。 人 们 更 
习惯 于 用 名 字 (如 www.unpbook.com) 来 代替 数字 。 我 们 将 在 第 11 章 
中 讨论 主机 名 与 IP 地 址 之 间 以 及 服务 名 与 端口 之 间 的 转换 函数 。 我 们 
特意 推迟 讨论 这 些 函 数 ， 在 第 11 章 之 前 继续 使 用 IP 地 址 和 端口 号 ， 目 
的 是 了 解 我 们 必须 填写 和 查看 的 套 接 字 地 址 结构 的 细节 ， 避 免 被 另 一 
个 函数 集 的 细节 把 网 络 编程 的 讨论 搞 复 杂 了 。 


任何 现实 世界 的 程序 都 必须 检查 每 个 函数 调用 是 否 返回 错误 。 在 
图 1-5 所 示 的 程序 中 ， 我 们 检查 socket、inet_pton、connect、 
read 和 fputs 函 数 是 否 返 回 错误 ， 当 发 生 错 误 时 ， 就 调用 我 们 自己 的 
err_quit 或 err_sys 函 数 输 出 一 个 出 错 消 息 并 终止 程序 的 运行 。 我 
们 发 现 绝 大 多 数 情 况 下 这 正 是 我 们 想 做 的 事 。 个 别 情况 下 ， 当 这 些 函 
数 返 回 错误 时 ， 我 们 想 做 的 事 并 非 简 单 地 终止 程序 的 运行 ， 如 图 5-12 
所 示 ， 我 们 必须 检查 系统 调用 是 否 被 中 断 了 。 

既然 发 生 错误 时 终止 程序 的 运行 是 普 过 的 情况 ， 我 们 可 以 通过 有 定 
SUPERBA (wrapper function) 来 缩短 程序 。 每 个 包 庄 函数 完成 实际 
的 函数 调用 ， 检 查 返 回 值 ， 并 在 发 生 错误 时 终止 进程 。 我 们 约定 包 囊 
函数 名 是 实际 函数 名 的 首 字母 大 写 形式 。 例 如 ， 在 语句 


sockfd = Socket(AF_INET, SOCK_STREAM, 0); 


中 ， 画 数 Socket 是 函数 socket 的 包 庄 函数 ， 如 图 1-7 所 示 。 
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图 1-7 socket Any HAL 
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以 对 应 的 小 写字 母 开头 。 


然而 在 讲解 本 书 中 提供 的 源 代码 时 ， 我 们 总 是 指称 被 调用 的 最 低 
级 别 的 辆 数 (如 socket) ， 而 不 古 包 于 函数 (如 Socket) 


这 些 包 于 函数 不 见得 多 节省 代码 量 ， 但 当 我 们 在 第 26 章 中 讨论 线 
程 时 ， 将 会 发 现 线程 范 数 过 到 错误 时 并 不 设置 标准 Unix 的 errno 变 
量 ， 而 是 把 errno 的 值 作 为 函数 返回 值 返 回调 用 者 。 这 意味 着 每 次 调 
用 以 pthread_ 开头 的 某 个 函数 时 ， 我 们 必须 分 配 一 个 变量 来 存放 画 
数 返 回 值 ， 以 便 在 调用 err_sys 前 把 errno 变 量 设置 成 该 值 。 为 避免 
引入 花 括 号 把 代码 大 得 很 混乱 ， 我 们 可 以 使 用 C 语 言 的 逗号 操作 符 ， 
把 errno 的 赋值 邱 err_sys 的 调用 组 合成 一 条 语句 ， 如 下 所 示 : 


if ( (n = pthread_mutex_lock(&ndone_mutex)) != 0) 
errno - n, err sys("pthread mutex lock error"); 


我 们 也 可 以 为 此 定义 一 个 新 的 错误 处 理 函 数 ， 它 取 系 统 的 错误 号 
作为 一 个 参数 ， 不 过 通过 定义 如 图 1-8 所 示 的 包 衰 函数， 我 们 可 以 让 以 
上 这 段 代码 更 为 易 读 : 


if ( (a — plhccud mulex lockí(mptz)) — 2) 
loon: 


图 1-8 pthread_mutex_lockA GR Neu 


Pthread mutex lock(&ndone mutex); 


SU TERCAS, BATTLE BERL, MTR 
微 提 高 运行 时 效率 ， 不 过 包 囊 画 数 很 少 是 程序 性 能 的 瓶颈 所 在 。 


选择 首 字 母 大 写 一 个 函数 名 作为 其 包 吉 函数 名 是 一 种 折 中 的 方 
法 。 其 他 方法 也 考虑 过 ， 壁 如 给 函数 名 加 一 个 “e”* 前 级 (如 
[Kernighan and Pike 1984] 一 书 第 182 页 所 示 ) ， 给 函数 名 加 一 


个 “_e” 后 级 ， 等 等 。 这 些 方法 都 能 明显 地 提示 调用 了 其 他 函数 ， 但 我 
们 的 这 种 风格 看 来 是 最 少 分 散 注意 力 的 。 


这 种 技术 还 有 助 于 检查 那些 错误 返回 值 通常 被 忽略 的 函数 是 否 出 
错 ， 例 如 cLose 和 1isten。 


本 书后 面 的 例子 中 ， 除 非 必须 检查 某 个 确定 的 错误 是 否 发 生 ， 并 
以 不 同 于 终止 进程 的 其 他 某 种 方式 处 理 它 ， 否 则 就 使 用 这 些 包 正 函 
" : Fi 10588 TJ XE ERAI RR ,— BE T RI EA S AIRE 
JILBES RE) e 


Unix errno 值 


只 要 一 个 Unix 函 数 (例如 某 个 套 接 字 函数 ) 中 有 错误 发 生 ， 全 局 
变量 errno 就 被 置 为 一 个 指明 该 错误 类 型 的 正 值 ， 函 数 本 身 则 通常 返 
E] 1°。err_sys 查 看 errno 变 量 的 值 并 输出 相应 的 出 错 消 忆 ， 例 如 当 
errno 值 等 于 ETIMEDOUTH 时 ， 将 输出 “Connection timed out”( 连 接 超 
时 ) 。 


errno 的 值 只 在 函数 发 生 错 误 时 设置 。 如 果 函 数 不 返回 错误 ， 
errno 的 值 就 没有 定义 。errno 的 所 有 正 数 错误 值 都 是 常 值 ， 具 有 
以 “E” 开 头 的 全 大 写字 母 名 字 ， 并 通常 在 < sys/errno.n > 头 文件 中 
定义 。 值 0 不 表示 任何 错误 。 


在 全 局 变量 中 存放 errno 值 对 于 共享 所 有 全 局 变量 的 多 个 线程 并 
不 适合 。 我 们 将 在 第 26 章 中 讲述 解决 这 一 问题 的 方法 。 


全 书 中 我 们 将 使 用 诸如 “connect 画 数 返 回 ECONNREFUSED” 这 样 
的 句子 简明 表达 以 下 意思 该 函数 返回 一 个 错误 (通常 函数 返回 值 
H-1) ， 同 时 errno 被 置 为 指定 的 常 值 。 


1.5 一 个 简单 的 时 间 获 取 服 务 器 程序 


我 们 可 以 编写 一 个 简单 的 TCP 时 间 获 取 服 务 右 程序 ， 它 和 1.2 市 中 
的 客户 程序 一 道 工 作 。 图 1-9 给 出 了 这 个 服务 器 程序 ， 它 使 用 了 上 一 市 
HH PIE A) ELS o 


teriy AAV VIVA 


int “atenta, conntde 
airnet aockacor in aarvadd+: 


cliur buff EAXLINE ; 


13 nervadcór.3in addr.2? addr - Aten 

14 servudur sia purl 一 hitonzíl3); /* 
15 dind(istenfd, (5^ +) &acrvaddr, sizeof 
14 Liaten(ilistentd, LISTEN?) : 


li fog 4 £4 boa 
vonid ~ Accco.tlisLorfd, (SA *) NULL, NULL); 
15 ticks = cdme(NMUl); 
rrpzinLf(baff, sizcof(zuff), "t.24sWVr*n", zLimcia-icks)]s 
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图 1-9” ”TCP 时间 获 取 服 务 器 程序 


创建 TCP 套 接 字 
10  TCP 套 接 字 的 创建 与 客户 程序 相同 。 


把 服务 器 的 众所周知 端口 捆绑 到 套 接 字 


11-15 通过 填写 一 个 网 际 套 接 字 地 址 结构 并 调用 bind 函 数 ， 服 
务 器 的 众所周知 端口 (对 于 时 间 获 取 服 务 是 13) 被 捆绑 到 所 创建 的 套 
接 字 。 我 们 指定 IP 地 址 为 INADDR_ANY， 这 样 要 是 服务 器 主机 有 多 个 
网 络 接口 ， 服 务 器 进程 就 可 以 在 任意 网 络 接口 上 接受 客户 连接 。 以 后 
我 们 将 了 解 怎样 限定 服务 器 进程 只 在 单个 网 络 接口 上 接受 客户 连接 o 


把 套 接 字 转换 成 监听 套 接 字 


16 调用 1isten 函 数 把 该 套 接 字 转 换 成 一 个 监听 套 接 字 ， 这 样 
来 目 客户 的 外 来 连接 残 可 在 该 套 接 字 上 由 内 核 接 党 。socket、bind 
和 1isten 这 3 个 调用 步骤 是 任何 TCP 服 务 器 准备 所 谓 的 监听 描述 符 

(listening descriptor， 本 例 中 为 istenfd) 的 正常 步骤 。 


常 值 LISTENQ 在 我 们 的 unp, h 头 文件 中 定义 。 它 指定 系统 内 核 允 
许 在 这 个 监听 描述 符 上 排队 的 最 大 客户 连接 数 。 我 们 将 在 4.5 闻 详细 说 
明 客 户 连 接 的 排队 。 


接受 客户 连接 ， 发 送 应 答 


17-21 通常 情况 下 ， 服 务 器 进程 在 accept 调 用 中 被 投入 睡 
眠 ， 等 待 某 个 客户 连接 的 到 达 并 被 内 核 接 受 。TCP 连 接 使 用 所 谓 的 三 
路 握手 (three-way handshake) 来 建立 连接 。 握 手 完毕 时 accept 返 
回 ， 其 返回 值 是 一 个 称 为 已 连接 描述 符 (connected descriptor) 的 新 描 
述 符 (本 例 中 为 connfd) 。 该 描述 符 用 于 与 新 近 连 接 的 那个 客户 通 
信 。accept 为 每 个 连接 到 本 服务 器 的 客户 返回 一 个 新 描述 符 。 


本 书 全 文采 用 的 无 限 循环 采用 以 下 风格 : 
Tor ( r$ 1 


j 


Le 
14 


当前 时 间 和 日 期 是 由 库 函 数 time 返 回 的 ， 它 实际 上 返回 的 是 自 
Unix 纪 元 即 0 点 0 分 0 秒 (国际 标准 时 间 ) 以 来 的 秒 数 。 下 一 个 库 函 数 
ctime 把 该 整数 值 转换 成 直观 可 读 的 时 间 格 式 ， 例 如 : 


Mon May 26 20:58:40 2003 


snprint fA eek hE BR AI — ^ [EL AERE P Elf 
符 ， 随 后 write 函数 把 结果 字符 串 写 给 客户 。 


如 果 你 尚 不 习惯 改 用 snprintf 代 替 较 早 的 sprintf 函 数 ， 那 么 
现在 是 学 习 的 时 候 了 。 调 用 sprintf 无 法 检查 目的 缓冲 区 是 否 洲 出 。 
相反 ，snprintf 要 求 其 第 二 个 参数 指定 目的 缓冲 区 的 大 小 ， 因 此 可 
确保 该 缓冲 区 不 洲 出 。 


snprintf 相 对 较 晚 才 加 到 ANSI C 标 准 中 ， 在 称 为 ISO C99 的 版 
本 中 引入 。 不 过 几乎 所 有 广 商都 把 它 作 为 标准 C 函 数 库 的 一 部 分 提 
供 ， 而 且 另 有 许多 免费 可 得 的 版 本 可 用 。 我 们 贯穿 全 书 使 用 
snprintf， 也 推荐 你 出 于 可 靠 性 考虑 在 目 己 的 程序 中 改 用 它 来 代替 


sprintf ° 


值得 注意 的 是 ， 许 多 网 络 入 侵 是 由 墨客 通过 发 送 数据 ， 导 致 服务 
器 对 Sprintf 的 调用 使 其 缓冲 区 溢出 而 发 生 的 。 必 须 小 心 使 用 的 函数 
还 有 gets、strcat 和 strcpy， 通 常 应 分 别 改 为 调用 fgets、 
strncat 和 strncpy。 更 好 的 替代 函数 是 后 来 才 引 入 的 strLcat 和 
strlcpy， 它 们 确保 结果 是 正确 终止 的 字符 串 。 编 写 安全 的 网 络 程序 
的 更 多 技巧 参见 [Garfinkel, Schwartz, and Spafford 2003] 的 第 23 章 。 


终止 连接 


22 ”服务 器 通过 调用 close 关 闭 与 客户 的 连接 。 该 调用 引发 正常 
的 TCP 连 接 终 止 序列 : 每 个 方 同 上 发 送 一 个 FIN， 每 个 FIN 又 由 各 目的 
对 端 确 认 。2.6 闻 将 详细 讲述 TCP 的 三 路 握手 和 用 于 终止 一 个 TCP 连 接 
的 4 个 TCP 分 组 。 


与 上 太 查 看 客户 程序 一 样 ， 本 市 查看 服务 右 程 序 也 非常 简略 ， 具 
体 细 万 留 竺 本 书 以 后 论述 。 有 以 下 几 点 需要 注意 。 


。 与 其 客户 程序 一 样 ， 这 一 服务 器 程序 也 与 IPv4 协 议 相 关 。 我 们 将 
在 图 11-13 中 给 出 使 用 getaddrinfo 函 数 实现 的 一 个 协议 无 关 的 
As e 


。 KRAER BEAEEE— EP oo MURA TE PIERRE ALS RINT 
到 达 ， 系 统 内 核 在 某 个 最 大 数目 的 限制 下 把 它们 排 入 队列 ， 然 后 
每 次 返回 一 个 给 accept 函 数 。 本 服务 器 只 需 调 用 time 和 ctime 
这 两 个 库 函 数 ， 运 行 速度 很 快 。 然 而 如 采 服 务 器 需 用 较 多 时 间 
\ 璧 如 说 几 秒 钟 或 一 分 钟 ) 服务 每 个 客户 ， 那 么 我 们 必须 以 某 种 
方式 重合 对 各 个 客户 的 服务 。 

图 1-9 中 所 示 的 服务 器 称 为 近代 服务 器 (iterative server) ， 因 为 对 
于 每 个 客户 它 都 迭代 执行 一 次 。 同 时 能 处 理 多 个 客户 的 并 发 服务 
ax (concurrent server) 有 多 种 编写 技术 。 最 简单 的 技术 是 调用 
Unix 的 fork 函 数 (4.777) ， 为 每 个 客户 创建 一 个 子 进 程 。 其 他 
技术 包括 使 用 线程 代替 fork (26.4 节 ) ， 或 在 服务 器 启动 时 预先 
fork 一 定数 量 的 子 进程 (30.677) ° 


15] 
。 如 果 从 shell 命 令 行 启动 本 例 这 样 的 一 个 服务 器 ， 我 们 也 许 想 要 它 
运行 很 长 时 间 ， 因 为 服务 器 往往 在 系统 工作 期 间 一 直 运行 。 这 要 


求 我 们 往 服务 器 程序 中 添加 代码 ， 以 便 它 能 够 作为 一 个 Unix 守 护 
进程 (daemon) 能 在 后 台 运 行 且 不 跟 任 何 终端 关联 的 进程 
一 一 运行 。 我 们 将 在 13.4 节 讨论 守护 进程 。 


1.6 ”本 书 中 客户 /服务 器 程序 示例 索引 表 


贯 罕 全 书 的 用 于 阐述 网 络 编程 中 使 用 的 各 种 技术 的 两 个 客户 /服务 
SE ERHP RD RI P: 


e 时间 获取 客户 /服务 器 程序 (开始 于 图 1-5、 图 1-6 和 图 1-9) ; 
。 回 射 客 户 /服务 器 程序 (开始 于 第 5 章 ) 。 


为 了 提供 本 书 所 涵盖 不 同 主题 的 路 线 图 ， 我 们 用 下 面 4 个 表格 息 总 
了 将 要 开发 的 程序 ， 并 给 出 了 它们 的 源 代码 所 在 的 起 始 图 号 。 图 1-10 
列 出 了 本 书 开发 的 时 间 获 取 客 户 程 序 的 不 同 版 本 ， 其 中 有 两 个 版 本 前 
面 已 讲 过 。 图 1-11 列 出 了 时 间 获 取 服 务 紫 程序 的 不 同 版 本 。 图 1-12 列 
ELEC UPDATES [1-137] Hi T EI ARS S REF RAP E] 


fy 说 
1-5 "Toppy, RAK 
1-6 TCPZPvS. JPX 
11-4 TCPIPv4. “XHK, 14 dd3e-hos-bynaxcüg-f-:crvoyname 
11-11 TCP, MAAK, ta gecaddrints*tcop_connect 
11-16 UDP. WAT; Ta Woeteddeinfo#ludp crier. 
16-11 TCP. (EIH E conniesl 
31-8 TCP, SRGOGEX, MIpliby (te 
F-1 TCP, IRR, “4isigqe pe 
F-5 TCP， 开 以 相关 ， 答 山 套 接 字 接收 经 冲 区 的 大 小 和 MSS 
E-11 TCP, TAR. OUTIL A, Caelbostyname?) 或 者 中 地 址 
F-12 TOP, JAER, MHEMA Cuebnrbostiyname? 


图 1-10 ”本 书 开发 的 时 间 获 取 客 户 程 序 的 不 同 版 本 
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TCP, 协议 在 关 ， 从 irs=a 守 护 刘 程 派生 


图 1-11 本 书 开 发 的 时 间 获 取 服 务 器 程序 的 不 同 版 本 


W 明 
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ra 


| ?此 处 保留 了 本 书 第 2 版 的 内 容 。 


图 1-12 ”本 书 开 发 的 回 射 客户 程序 的 不 同 版 本 
一 一 译 者 注 
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图 1-13 KEF 


发 的 回 射 服务 器 程序 的 不 同 版 本 


1.7 “OSI 模型 


描述 一 个 网 络 中 各 个 协议 层 的 常用 方法 是 使 用 国际 标准 化 组 织 
(International Organization for Standardization, ISO) 的 计算 机 通信 开 
放 系 统 互 连 (open systems interconnection, OSI) 模型 。 这 是 一 个 七 层 

模型 ， 如 图 1-14 所 示 。 图 中 同时 给 出 了 它 与 网 际 协议 族 的 近似 映射 。 


Wi HEEE T 


OSTREJ! 可 际 网 协议 底 


图 1-14 ”OSI 模 型 和 网 际 协议 族 中 的 各 层 


我 们 认为 OS 模型 的 底下 两 层 是 随 系统 提供 的 设备 驱动 程序 和 网 
络 硬件 。 通 常情 况 下 ， 除 需 知道 数据 链 路 的 菜 些 特性 外 (如 将 在 2.11 
论述 的 1500 守 他 以 太 网 的 MTU 大 外 |， 我 们 不 必 关 心 这 两 层 的 具 休 
情况 。 


网 络 层 由 IPv4 和 IPv6 这 两 个 协议 处 理 ， 我 们 将 在 附录 A 中 讲述 它 
们 。 可 以 选择 的 传输 层 有 TCP 或 UDP， 我 们 将 在 第 2 章 中 讲述 它们 。 图 
1- 14 中 TCP 与 UDP 之 间 留 轩 有 间隙， 表明 网 络 应 用 绕 过 传输 层 直接 使 用 
IPv4 或 IPv6 是 可 能 的 。 这 就 是 所 谓 的 原始 套 接 字 (raw socket) ， 我 们 
将 在 第 28 章 中 讨论 。 


OSI 模 型 的 顶 上 三 层 被 合并 成 一 层 ， 称 为 应 用 层 。 这 就 是 Web 客 户 
(浏览 器 ) 、Telnet 客 户 、Web 服 务 器 、FTP 服 务 器 和 其 他 我 们 在 使 用 
ee etu tlie 
没有 有 区别。 


本 书 讲述 的 套 接 字 编程 接口 是 从 顶 上 三 层 (网 际 协议 的 应 用 层 ) 
进入 传输 层 的 接口 。 本 书 的 焦点 是 : 如何 使 用 套 接 字 编写 使 用 TCP 或 
UDP 的 网 络 应 用 程序 。 我 们 已 提 到 原始 套 接 字 ， 在 第 29 章 中 我 们 将 看 
到 ， 甚 至 可 以 彻 拼 绕 过 IP 层 直接 读 写 数据 链 路 层 的 帧 。 


为 什么 套 接 字 提 供 的 是 从 OSI 模 型 的 顶 上 三 层 进 入 传输 层 的 接 
O? 这 样 设计 有 两 个 理由 ， 如 图 1-14 右 侧 所 注 。 理 由 之 一 是 顶 上 三 层 
处 理 具体 网 络 应 用 (如 FTP、Telnet 或 HTTP) 的 所 有 细节 ， 却 对 通信 
细节 了 解 很 少 ， 底 下 四 层 对 具体 网 络 应 用 了 解 不 多 ， 却 处 理 所 有 的 通 
信 细 节 : 发 送 数据 ， 等 待 确认 ， 给 无 序 到 达 的 数据 排序 ， 计 算 并 验证 
校 验 和 ， 等 等 。 理 由 之 二 是 顶 上 三 层 通常 构成 所 谓 的 用 户 进程 (user 
process) ， 底 下 四 层 却 通常 作为 操作 系统 内 核 的 一 部 分 提供 。Unix 与 
其 他 现代 操作 系统 都 提供 分 隔 用 户 进程 与 内 核 的 机 制 。 由 此 可 见 ， 第 4 
层 和 第 5 层 之 间 的 接口 是 构建 API 的 自然 位 置 。 
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1.8 BSD 网 络 支持 历史 


套 接 字 API 起 源 于 1983 年 发 行 的 4.2BSD 操 作 系 统 。 图 1-15 展 示 了 
各 种 BSD 发 行 版 本 的 发 展 史 ， 并 注 明 了 TCP/IP 的 主要 发 展 历程 。1990 
年 面世 的 4.3BSD Reno 发 行 版 本 随 着 OSI 协 议 进 入 BSD 内 核 而 对 套 接 字 
API 做 了 少量 的 改动 。 


4.2BSD (19834) 
第 一 个 广泛 可 用 的 TCPATP 
MERTAPA 


4.3BSD (198626) 
dys& f TCPTE RE 


4.3BSD Tahoe (19883[-) 


teenie (Bah. didi 
appe 快速 重信 
— 
DSD Networking Software | 
1.0). (19895) ; Net/1 


4.3BSD Beno (19907 > 
KERKE. TCPA ATM. 
ME sadi SLIP able Se. IERM: 


gee sockaddr HP 3slip E ZR, 


+ RT a eer vig 
. zsghár| Ps udi E 
DSD Networking Software 
2.0 版 (199155) ; Net/2 | 
4.4BSD (1992377) 
ee Zit, XH PIE 
monii 
4.4BSD Lite (199457) 
IE LIHER ANet/3 BSD/OS 
| | FreeBSD 
OpeuBso 


4.4BSD-Litc2 (100545) 


NetBSD 
| 


图 1-15 ”各 种 BSD 版 本 的 历史 


图 1-15 中 从 4.2BSD 往 下 到 4.4BSD 的 通路 展示 了 源 自 Berkeley 计 算 
机 系统 研究 组 (Computer Systems Research Group, CSRG) 的 各 个 版 


本 ， 它 们 要 求 获取 者 已 拥有 Unix 的 源 代码 许可 权 。 然 而 其 中 的 所 有 网 
络 支 持 代码 ， 不 论 是 内 核 支 持 (如 TCP/IP 协 议 栈 、Unix 域 协议 栈 及 套 
接 字 API) 还 是 应 用 程序 (如 Telnet 和 FTP 客 户 和 服务 器 程序 ) 都 是 独 
立 于 源 目 AT&T 的 Unix 代 人 码 开发 的 。 因 此 从 1989 年 起 ，Berkeley 开 始 提 
供 第 一 个 BSD 网 络 支 持 版 本 ， 它 包含 所 有 的 网 络 支 持 代 码 以 及 不 受 
Unix 源 代码 许可 权 约 束 的 其 他 各 种 BSD 系 统 软件 。 这 些 包含 网 络 支 持 
eee 最 终 因特网 上 任何 人 都 可 通过 匿名 FTP 
获取 。 


源 自 Berkeley 的 最 终 版 本 是 1994 年 的 4.4BSD-Lite 和 1995 年 的 
4.4BSD-Lite2。 我 们 指出 这 两 个 版 本 是 其 他 多 个 系统 〈 包 括 BSD/OS、 
FreeBSD、NetBSD 和 OpenBSD) 的 基础 ， 这 些 系统 大 多 数 仍 然 处 于 活 
跃 的 开发 和 完善 之 中 。 有 关 各 种 BSD 版 本 和 各 种 Unix 系 统 历史 的 详情 
参见 [Mckusick et al.1996| 的 第 1 章 。 


许多 Unix 系 统 从 某 个 版 本 的 BSD 网 络 文 持 代码 〈 包 括 套 接 字 

API) 开始 提供 网 络 支 持 ， 我 们 称 这 些 实现 为 源 自 Berkeley 的 实现 

(Berkeley-derived implementation) 。 许 多 商业 版 本 的 Unix 是 基于 
System V 版 本 4 (System V Release 4, SVR4) 的 ， 其 中 有 一 些 系 统 使 
用 源 自 Berkeley 的 网 络 支持 代码 (如 UnixWare 2.x) ， 其 他 SVR4 系 统 
的 网 络 支 持 代 码 却 是 独立 起 源 的 (如 Solaris 2.x) 。 我 们 还 要 注意 ， 
Linux 这 种 流行 的 可 免费 获得 的 Unix 实 现 并 不 适合 归属 源 自 Berkeley 的 
系列 ， 因 为 它 的 网 络 文 持 代 码 和 套 接 字 API 都 是 从 头 开始 开发 的 。 
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19 测试 用 网 络 及 主机 


图 1-16 展 示 了 本 书 示 例 所 用 的 各 个 网 络 和 主机 。 对 于 每 个 主机 ， 我 
们 都 标 出 了 它 的 操作 系统 和 硬件 类 型 (因为 有 些 操作 系统 可 运行 在 不 止 
一 种 硬件 上 ) 。 各 个 框 内 的 名 字 束 是 出 现在 本 书 中 的 各 个 主机 名 。 
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1 
macosx 


m — 
一 mm 


| " Ec E Da 2 | 
freebsdag 2552 DL " Do eese: Padi. freebad & 


EIL e T L 
FreeBSD 4.8 T FrecBSD 5.1 
Intel x86 SPARC 
172.24.37/24 192.168.42/24 


3£fe:b80:1£8d:2/64 
206.153.112.96 


Linux 2.4.7 Solaris 9 
(Redi lat 7.2) linux solaris | (SunO$ 55) 
Intel x86 " SPARC 


-10 -20 
192.168.1/24 


图 1-16 ”本 书 示例 所 用 的 网 络 和 主机 


图 1-16 所 示 的 拓扑 适合 本 书 的 例子 ， 不 过 机 妖 大 范围 地 散布 在 因 特 
网 上 ， 物 理 拓扑 实际 上 变 得 不 太 重 要 。 事 实 上 虚拟 专用 网 络 (virtual 
private network, VPN) 或 安全 shell (secure shell, SSH) 连接 提供 这 些 
机 器 之 间 的 连通 性 ， 而 无 需 顾 及 这 些 主机 的 物理 位 置 。 


图 中 %/24”( 和 /64) 指出 从 地 址 的 最 左 位 开始 用 于 标识 网 络 和 子 网 
的 连续 位 数 。A.4 市 将 说 明 现 今 用 于 指定 子 网 边界 的 /n 记 法 。 


Sun 操 作 系 统 的 真实 名 字 是 SunOS 5.x， 而 不 是 Solaris 2.x， 但 是 大 家 
习惯 称 它 为 Solaris， 实 际 上 这 是 操作 系统 和 与 之 捆绑 的 其 他 软件 的 合 
称 。 


网 络 拓扑 的 发 现 


图 1-16 展 示 了 本 书 的 全 部 示例 所 用 主机 的 网 络 拓扑 ， 但 是 为 了 在 你 
目 己 的 网 络 上 运行 这 些 例子 和 完成 习题 ， 你 可 能 需要 了 解 自己 的 网 络 拓 
扑 。 尽 管 目前 还 没有 关于 网 络 配置 和 管理 的 现行 Unix 标 准 ， 但 大 多 数 
Unix 系 统 都 提供 了 可 用 于 发 现 某 些 网 络 细 闻 的 两 个 基本 命令 : netstat 
和 ifconfig。 通 过 阅读 所 用 系统 上 这 些 命令 的 手册 页 面 9， 你 可 以 获 
悉 有 关 它 们 的 输出 信息 的 详情 。 要 留意 的 是 ， 有 些 厂商 把 这 些 命令 存放 
在 诸如 /sbin 或 /usr/sbin 这 样 的 管理 目录 中 ， 而 不 是 通常 
的 /usr/bin 目 录 ， 而 这 些 管 理 目录 可 能 不 在 通常 的 shell 搜 索 路 人 径 中 

(由 PATH 环 境 变 量 指定 ) 。 


(1) netstat -i 提供 网 络 接 口 的 信息 。 我 们 还 指定 -n 标 志 以 输 
出 数值 地 址 ， 而 不 古 试图 把 它们 反 向 解析 成 名 字 。 下 面 的 例子 给 出 了 接 
口 及 其 名 字 和 统计 信息 : 


linux % netstat -ni 

Kernel Interface table 

Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR -OK TX-ERR -OVR Flg 
1500 049211085 0 0 040540958 0 0 0 


16436 098613572 0 0 098613572 0 0 0 


其 中 环 回 (loopback) 接口 称 为 10， 以 太 网 接口 称 为 eth9g。 下 面 的 
例子 给 出 了 支持 IPv6 的 一 个 主机 的 类 似 信息 : 


freebsd % netstat -ni 


Name Mtu Network Address Ipkts Ierrs Opkts 
Oerrs Coll 

hme0 1500 <Link#1> 08:00:20:a7:68:6b 29100435 35 46561488 
0 0 


hmeO 1500 12.106.32/24 12.106.32.254 28746630 - 46617260 
hmeo 1500 fe80:1::a00:20ff :fea7:686b/64 
fe80:1::a00:20ff :fea7:686b 
0 - 0 


hmeo 1500 3ffe:b80:8d:1::1/64 
3ffe:b80:8d:1::1 9 - 9 


hmei 1500 <Link#2> 08:00:20:a7:68:6b 51092 0 31537 


9 9 
hme1 1500 fe80:2::a00:20ff :fea7:686b/64 
fe80:2::a00:20ff :fea7:686b 


0 - 90 - 

hme1 1500 192.168.42 192.168.42.1 43584 - 24173 
hme1 1500 3ffe:b80:8d:2::1/64 

3ffe:b80:8d:2::1 78 - 8 - 
loO 16384 <Link#6> 10198 9 10198 
9 9 
100 16384 ::1/128 aes d 10 - 10 
100 16384 fe80:6::1/64 fe80:6::1 9 - 9 
100 16384 127 127.0.0.1 10167 - 10167 
gifO 1280 <Link#8> 6 0 5 
0 0 
gifO 1280 3ffe:b80:3:9ad1::2/128 

3ffe:b80:3:9ad1: :2 9 - 9 


gifO 1280 fe80:8::a00:20ff:fea7:686b/64 
fe80:8::a00:20ff :fea7:686b 
0 - 0 - 


注意 : 为 了 对 齐 输出 字段 ， 我 们 对 较 长 的 代码 行 做 了 回 行 处 理 。 


(2) netstat -fr 展示 路 由 表 ， 也 是 另 一 种 确定 接口 的 方法 。 我 
们 通常 指定 -n 标 志 以 输出 数值 地 址 。 它 还 给 出 默认 路 由 器 的 下 地 址 。 


freebsd % netstat -nr 
Routing tables 


Internet: 

Destination Gateway Flags Refs Use Netif Expire 
default 12.106.32.1 USGC 10 6877 hmeO 
12.106.32/24 linkzi UC 3 ©  hmeO 
12.106.32.1 00:b0:8e:92::00 UHLW 9 7  hmeO 1187 
12.106.32.253  08:00:20:b8:f7:e0 UHLW 0 1  hmeO 140 
12.106.32.254 08:00:20:a7:68:6b UHLW 0 2 100 
127.0.0.1 127.0.0.1 UH 1 10167 100 
192.168.42 linkz2 UC 2 0 hme1 


192.168.42.1 
192.168.42.2 


Internet6: 
Destination 
Expire 


::/96 


default 


:1 


:ffff: .0/96 


3ffe: 
3ffe: 
3ffe: 
3ffe: 
3ffe: 
3ffe: 
3ffe: 
3ffe: 
fe80: 
fe80: 
fe80: 
fe80: 
fe80: 
fe80: 
fe80: 
fe80: 
fe80: 
ff01: 
ff02: 
ff02: 
ff02: 
ff02: 
ff02: 


b80 
b80 


b80: 
b80: 
b80: 
b80: 
b80: 
b80: 


8d 


8d 


8d 


:/10 
:26hme9 7/64 
:a00: 20f Ff: fea7 : 686b%hmeO 
:26hme1/64 
:a00:20ff:fea7:686b9?chme1 
:96100/ 64 


:196100 


8d: 
He NE 
8d:2 

12: 
8d:2 


08:00:20:a7:68:6b 
00:04:ac:17:bf:38 


3:9ad1::1 
3:9ad1: :2 


11/48 


1 


::/64 

:1 

::/64 

sh 
:204:acff:fe17:bf38 


:%gif0/64 

:aQ0:20fFf:fea7 :686b%gifO 
1/32 
7/16 
:26hme9 / 32 
:26hme1/32 
:126100/ 32 
:96gif0/32 


UHLW 0 11 100 
UHLW 2 24108 hme 210 
Gateway Flags Netif 
Fal UGRSc lo0 => 
3ffe:b80:3:9ad1::1 UGSc gifo 
r UH 100 
2e UGRSC 100 
3ffe:b80:3:9ad1::2 UH gifo 
link#8 UHL 1o0 
100 USC 100 
linkzi UC hmeO 
08:00:20:a7:68:6b UHL lo0 
linkz2 UC hme1 
08:00:20:a7:68:6b UHL lo0 
00:04:ac:17:bf :38 UHLW hme1 
rid UGRSc 100 
link#1 UC hme 
08:00:20:a7:68:6b UHL lo0 
linkz2 UC hme1 
08:00:20:a7:68:6b UHL 100 
fe80: :1%100 Uc 100 
link#6 UHL 100 
links8 UC gifo 
link#8 UHL lo0 
rid U 100 
HEN UGRS 100 
linkzi UC hmeO 
linkz2 UC hme1 
rid UC 100 
links8 UC gifo 


(3) 有 了 各 个 网 络 接口 的 名 字 ， 


详细 信息 9 


执行 ifconfig 就 可 获得 每 个 接口 的 


linux % ifconfig eth0 


etho 


Link encap:Ethernet HWaddr 00:C0::06:B0:E1 
inet addr:206.168.112.96 Bcast:206.168.112.127 
Mask:255.255.255.128 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:49214397 errors:0 dropped:0 overruns:0 frame:0 

TX packets: 40543799 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:100 


RX bytes:1098069974 (1047.2 Mb) TX bytes:3360546472 (3204.8 


Mb) 


Interrupt:11 Base address:0x6000 


该 命令 给 出 了 指定 接口 的 了 地 址 、 子 网 掩 码 和 广播 地 址 。 其 中 的 
MULTICAST 标 志 通 常 指明 该 接口 所 在 主机 文 持 多 播 。 有 些 ifconfig 的 
实现 还 提供 -a 标志 ， 用 于 输出 所 有 已 配置 接口 的 信息 。 


(4) 找 出 本 地 网 络 中 众多 主机 的 IP 地 址 的 方法 之 一 是 ， 针 对 从 上 一 
步 找到 的 本 地 接口 的 广播 地 址 执行 ping 命 令 。 


linux % ping -b 206.168.112.127 
WARNING: pinging broadcast address 


PING 206.168.112.127 (206. 


data. 

from 206 
from 206 
from 206 


from 206 


from 206. 


from 206 


from 206 


from 206 


.168. 
.168. 


.168. 


.168. 


168. 


.168. 


.168. 


.168. 


112. 
112. 


112. 


112. 


112. 


112. 


112. 


112. 


168.112.127) from 206.168.112.96 : 56(84) 


96: icmp seq-0 ttl-255 time-241 usec 
40: icmp_seq=0 ttl-255 time-2.566 msec 


118: icmp_seq=0 ttl-255 time=2.973 msec 

14: icmp_seq=0 ttl-255 time=3.089 msec 
: icmp seq-0 ttl-255 time=3.200 msec 

71: icmp_seq=0 ttl-255 time=3.311 msec 


31: icmp_seq=0 ttl-64 time=3.541 msec 


7: icmp_seq=0 ttl=255 time=3.636 msec 


1.10 Unix 标准 


在 编写 本 书 时 ， 最 引 人 注 目的 Unix 标 准 化 活动 是 由 Austin 公 共 标 
准 修订 组 (The Austin Common Standards Revision Group, CSRG) + 
持 的 。 他 们 的 努力 结果 是 涵盖 1 700 多 个 编程 接口 的 约 4 000 页 内 容 的 规 
范 [Josey 2002] 。 这 些 规范 既 具 有 IEEE POSIX 名 字 ， 也 具有 开放 团 
体 的 技术 标准 (The Open Group's Technical Standard) 名 字 。 其 结果 是 
同一 个 Unix 标 准 有 多 个 名 字 来 指称 : ISO/IEC 9945:2002 ` IEEE Std 
1003.1-2001 和 单一 Unix 规 范 第 3 版 (Single Unix Specification Version 
3) 都 指 同一 个 标准 。 本 书 中 除了 像 本 和 这 样 需要 讨论 各 种 较 早 期 标准 
各 自 特 性 的 章节 外 ， 我 们 简单 地 称 这 个 Unix 标 准 为 POSIX 规 范 (The 
POSIX Specification) ° 


获取 这 个 统一 标准 的 最 简易 方法 十 定购 其 CD-ROM 找 贝 或 通过 
Web 免 费 访 问 。 这 两 种 方法 的 起 始点 都 是 
http://www.UNIX.org/version3 ° 


1.10.1 OSIX 的 背景 


POSIX (可 移植 操作 系统 接口 ) 是 Portable Operating System 
Interface 的 首 字 母 缩写 。 它 并 不 是 单个 标准 ， 而 是 由 电气 与 电子 工程 
师 学 会 (the Institute for Electrical and Electronics Engineers, Inc.) 即 
IEEE 开 发 的 一 系列 标准 。POSIX 标 准 已 被 国际 标准 化 组 织 即 ISO 和 国 
际 电 工 委员 会 (the International Electrotechnical Commission) 即 IEC 采 
纳 为 国际 标准 (这 两 个 组 织 合 称 为 ISO/IEC) 。 下 面 是 POSIX 标 准 的 发 
EE o 


。 第 一 个 POSIX 标 准 是 IEEE Std 1003.1-1988 (31731) 。 它 详 述 了 进 
入 类 Unix 内 核 的 C 语 言 接 口 ， 涵 盖 了 下 述 领 域 : 进程 原 语 
(fork ` exec ` fa SAM ar) 、 进 程 环境 〈 用 户 ID 和 进程 
组 ) 、 文 件 与 目录 (IPSUVOERZIO 、 终 端 O、 系 统 数据 库 (O 
令 文 件 和 用 户 组 文件 ) 以 及 tar 和 cpio 归 档 格式 。 


第 一 个 POSIX 标 准 在 1986 年 是 称 为 "IEEE-IX” 的 试用 版 。POSIX 这 
个 名 字 是 由 Richard Stallman 建 议 使 用 的 。 


© 第 二 个 POSIX 标 准 是 IEEE Std 1003.1-1990 (35601) ， 也 称 为 
ISO/IEC 9945-1: 1990。 从 1988 版 本 到 1990 版 本 只 做 了 少量 的 修 
改 。 新 添 的 副标题 为 “Part 1: System Application Program Interface 
(API) [C Language]”， 表 明 本 标准 为 C 语 言 API ° 

。 下 一 个 标准 是 两 卷 本 的 IEEE Std 1003.2-1992 (73130070) 。 它 的 
副标题 为 “Part 2: Shell and Utilities”。 这 一 部 分 定义 了 shell (基于 
System V 的 Bourne Shell) 和 大 约 100 个 实用 程序 (通常 从 shell 启 
动 执 行 的 程序 ， 如 awk、basename、vi 和 yacc 等 等 ) 。 本 书 称 
这 个 标准 为 POSIX.2。 

。 再 下 一 个 标准 是 IEEE Std 1003.1b-1993 (590 页 ) ， 先 前 称 为 IEEE 
P1003.4。 这 是 对 1003.1-1990 标 准 的 更 新 ， 添 加 了 由 P1003.4 工 作 
组 开发 的 实时 扩展 。1003.1b-1993 相 比 1990 年 版 标准 新 增 的 条 目 
包括 : 文件 同步 、 异 步 1O、 信 和 号 量 、 存 储 管理 (mmap 和 共享 内 
f£)  、 执 行 调度 、 时 钟 与 定时 器 以 及 消息 队列 。 

。 更 下 一 个 标准 是 IEEE Std 1003.1 1996 年 版 [IEEE 1996] (743 
Tl) ， 也 称 为 I SO/IEC 9945-1: 1996， 它 包括 1003.1-1990 (基本 
API) ^1003.1b-1993 (实时 扩展 ) ^ 1003.1c-1995 (pthreads) 
和 1003.1i-1995 (对 1003.1b 的 技术 性 修订 ) 。 该 标准 增添 了 3 章 关 
于 线程 的 内 容 ， 并 男 有 关于 线程 同步 〈 互 斥 锁 和 条 件 变量 ) 、 线 
程 调度 和 同步 调度 的 各 节 。 本 书 称 这 个 标准 为 POSIX.1。 该 标准 
还 有 一 个 前 言 ， 其 中 声明 ISO/EC 9945 由 下 面 3 个 部 分 构成 。 

o zx 1: System API (C language) 一 一 第 1 部 分 : 系统 API (Cis 
AA 


第 2 部 分 : Shell 和 实用 程序 。 


o Part 2: Shell and utilities 
o Part 3: System administration 


ee s 


第 1 部 分 和 第 2 部 分 就 是 我 们 所 说 的 POSIX.1 和 POSIX.2。 
743 页 中 有 超过 四 分 之 一 的 篇 幅 是 一 个 标题 为 “Rationale and 


Notes”( 理 由 与 注解 的 附录 。 该 附录 含有 历史 性 信息 和 某 些 特性 被 
加 入 或 删除 的 理由 。 这 些 理由 通常 跟 正 式 标准 一 样 有 教 益 。 


。 最 后 一 个 标准 是 在 2000 年 被 认可 的 IEEE Std : Protocol- 
independent interfaces (PID。 在 单一 Unix 规 范 第 3 版 (The Single 
Unix Specification Version 3) 面世 之 前 ， 这 是 与 本 书 泗 盖 的 主题 
最 为 相关 的 POSIX 产 品 。 它 是 联网 API 标 准 ， 它 定义 了 两 个 API， 
并 称 它们 为 详尽 网 络 接 口 (Detailed Network Interface, DNI) ° 

o DNTISocket， 基 于 4.4BSD 的 套 接 字 API ° 
o DNIXTI， 基 于 X/Open 的 XPG4 规 范 。 


这 个 标准 的 工作 作为 P1003.12 工 作 组 (后 来 改名 为 P1003.1g) 起 
台 于 20 世 纪 80 年 代 后 期 。 本 书 称 这 个 标准 为 POSIX.1g。 


天 于 各 种 POSIX 标 准 的 当前 状况 可 以 访问 


http:/www.pasc.org/standing/sd11.html ° 


Foundation, OSF) 于 1996 年 合并 成 的 组 织 。 


1.10.2 ”开放 团体 的 背景 


开放 团体 (The Open Group) 是 由 1984 年 成 立 的 X/Open 公司 
(X/Open Company) 和 1988 年 成 立 的 开放 软件 基金 会 (Open Software 
它 是 厂商 、 工 业界 最 终 用 
户 、 政 府 和 学 术 机 构 共 同 参 加 的 国际 组 织 。 下 面 是 开放 团体 制定 的 标 


"ERU fS] SET ° 


。 X/Open n] T-19894E fix T X/Open Portability Guide (X/Open 移 
植 性 指南 ，XPG) 第 3 期 ， 即 XPG3。 

。 XPG 第 4 期 即 XPG4 出 版 于 1992 年 ， 其 第 2 版 出 版 于 1994 年 。 这 个 最 
新 版 本 也 称 为 “Spec 1 ， 其 中 魔 数 1170 是 系统 接口 数 (926 个 ) ^ 
头 文件 数 (70 个 ) 和 命令 数 (174 个 ) 的 总 和 。 这 组 规范 的 最 终 名 
字 是 X/Open Single Unix Specification (X/Open 单一 Unix 规 范 ) , 
也 称 为 “Unix 95 ° 

。 单一 Unix 规 范 第 2 版 于 1997 年 3 月 改行。 符合 这 个 规范 的 产品 称 
为 “Unix 98”。 本 书 就 称 这 个 规范 为 “Unix 98”。Unix 98 的 接口 数目 
从 1170 个 增长 到 1434 个 ， 而 用 于 工作 站 的 接口 数 则 达到 3 030 个 ， 
因为 它 包含 公共 桌面 环境 (Common Desktop Environment, 
CDE) ， 而 公共 桌面 环境 又 需要 X Windows 系 统 和 Meotif 用 户 接 
口 。 本 规范 的 详情 参见 http:/www.UNIX.org/version2 和 [Josey 
1997] ° Unix 98 为 套 接 字 API 和 XTI API 定 义 了 网 络 支持 服务 。 这 
个 规范 与 POSIX.1g 几 乎 相同 。 


NEW ze, X/Open E IBJPIZ&TNEZJXNS: X/Open Networking 
Services ° 4E Y. Unix 98 套 接 字 和 XTI 的 文档 的 这 一 版 本 称 为 “XNS Issue 
(XNS 第 5 期 ' 。 在 网 络 界 ，XNS 已 是 Xerox Network Systems 体 系 结构 
的 简称 。 所 以 ， 我 们 避免 使 用 XNS， 而 称 这 个 X/Open 文档 为 Unix 98 网 
络 API 标 准 。 


1.10.3 ”标准 的 统一 


如 本 节 开 头 所 提 ， 伴 随 Austin CSRG 发 布 单一 Unix 规 范 第 3 版 ， 
POSIX 和 开放 团体 都 继续 发 展 ， 达 成 统一 的 标准 。CSRG 促 成 50 多 家 公 
司 就 单一 标准 达成 一 致意 见 ， 这 在 Unix 发 展 史 上 确实 是 一 件 划时代 之 
大 事 。 如 今 大 多 数 Unix 系 统 都 符合 POSIX.1 和 POSIX.2 的 某 个 版 本 ， 不 
少 系统 符合 单一 Unix 规 范 第 3 版 。 


历史 上 多 数 Unix 系 统 或 者 源 目 Berkeley， 或 者 产 目 System V， 不 过 
这 些 苇 别 在 慢 慢 消失 ， 因 为 大 多 数 / 商 已 开始 采纳 这 些 标 准 。 然 而 在 
21090 处 理 上 两 者 仍然 存在 较 大 差别 ， 这 个 领域 目前 还 没有 标准 
可 循 。 


本 书 的 焦点 是 单一 Unix 规 范 第 3 版 ， 其 中 又 以 套 接 字 API 为 主 。 只 
要 可 能 ， 我 们 吏 使 用 标准 画 数 。 


1.10.4 ”因特网 工程 任务 攻坚 组 


因特网 工程 任务 攻坚 组 (Internet Engineering Task Force, IETF) 
是 一 个 由 关心 因特网 体系 结构 的 发 展 及 其 顺利 运作 的 网 络 设计 者 、 操 
e 它 回 任何 感 兴趣 
J^I 万 o 


因特网 标准 处 理 过 程 在 RFC 2026 [Bradner 1996] 中 说 明 。 因 特 
网 标准 一 般 处 理 协议 问题 而 不 是 编程 API， 不 过 仍 有 两 个 RFC (RFC 
3493 | Gilligan et al. 2003] 和 RFC 3542 [Stevens et al. 2003] ) 说 明了 
IPv6 的 套 接 字 API。 它 们 是 信息 性 的 RFC， 并 不 是 标准 ， 制 定 它 们 的 目 
的 是 加 速 部 署 由 多 家 从 事 IPv6 工 作 较 早 的 厂商 所 开发 的 可 移植 网 络 应 


用 程序 。 尽 管 标准 主体 趋 于 化 费 很 长 的 时 间 ， 其 中 许多 API 却 已 经 在 
单一 Unix 规 范 第 3 版 中 标准 化 了 。 


1.11 64 位 体系 结构 


20 世 纪 90 年 代 中 期 到 未 期 开始 出 现 向 64 位 体系 结构 和 64 位 软件 发 
展 的 趋势 。 其 原因 之 一 是 在 每 个 进程 内 部 可 以 由 此 使 用 更 长 的 编 址 长 
E ( 即 64 位 指针 ) ， 从 而 可 以 寻 址 很 大 的 内 存 空间 GB?) 
现 有 32 位 Unix 系 统 上 共同 的 编程 模型 称 为 ILP32 模 型 ， 表 示 整 数 
(I) 、 长 整数 (L) 和 指针 (P) 都 占用 32 位 。64 位 Unix 系 统 上 变 得 最 
为 流行 的 模型 称 为 LP64 模 型 ， 表 示 只 有 长 整数 (L) 和 指针 (P) 占用 
64 位 。 图 1-17 对 这 两 种 模型 进行 了 比较 。 


图 1-17 ILP32 和 LP64 模 型 保存 不 同 数 据 类 型 所 占用 的 位 数 的 比较 


从 编程 角度 看 ，LP64 模 型 意味 着 我 们 不 能 假设 一 个 指针 能 存放 在 
一 个 整数 中 。 我 们 还 必须 考虑 LP64 模 型 对 现 有 API 的 影响 。 


ANSI C 创 造 了 size_t 数 据 类 型 ， 它 用 于 作为 malloc 的 唯一 参数 
( 待 分 配 的 字 节 数 ) ， 或 者 作为 read 和 write 的 第 三 个 参数 ( 待 读 或 
写 的 字 节 数 ) 。 在 32 位 系统 中 size_t 是 一 个 32 位 值 ， 但 是 在 64 位 系 
统 中 它 必须 是 一 个 64 位 值 ， 以 便 发 挥 更 大 寻 址 模型 的 优势 。 这 意味 着 
64 位 系统 中 也 许 含 有 一 个 把 size_t 定 义 为 unsigned longi) 
typedef 指 令 。 联 网 API 存 在 如 下 问题 : POSIX 的 某 些 草案 规定 ， 存 
放 套 接 字 地 址 结构 大 小 的 函数 参数 具有 size_t 数 据 类 型 (如 bind 和 
connect 的 第 三 个 参数 ) 。 某 些 XTI 结 构 也 含有 数据 类 型 为 1ong 的 成 
员 (如 t_info 和 t_opthdr 结 构 ) 。 如 果 这 些 规定 不 加 修改 ， 当 Unix 


系统 从 ILP32 模 型 转变 为 LP64 模 型 时 ，size_t 和 long 都 将 从 32 位 值 
变 为 64 位 值 。 这 两 个 例子 实际 上 并 不 需要 使 用 64 位 的 数据 类 型 ， 套 接 
字 地 址 结构 的 长 度 最 多 也 就 儿 百 个 字 节 ， 给 XTI 的 结构 成 员 使 用 long 
数据 类 型 则 是 个 错误 。 


处 理 这 些 情况 的 办 法 是 使 用 专门 设计 的 数据 类 型 。 套 接 字 API 对 
套 接 字 地 址 结构 的 长 度 使 用 socklen_t 数 据 类 型 ，XTI 则 使 用 
t_scalar_ t 和 t_uscalar_t 数 据 类 型 。 不 把 这 些 值 由 32 位 改 为 64 
位 的 理由 是 易于 为 那些 已 在 32 位 系统 中 编译 的 应 用 程序 提供 在 新 的 64 
位 系统 中 的 二 进 制 代码 兼容 性 。 


1.12 小 结 


图 1-5 展 示 了 一 个 尽管 简单 但 却 完 整 的 TCP 客 户 程序 ， 它 从 茶 个 指 

定 的 服务 器 读 取 当 前 时 间 和 日 期 ， 而 图 1-9 则 展示 了 其 服务 颖 程序 的 一 

ee iene a ai 
lu e 


我 们 的 客户 程序 与 IPv4 协 议 相 关 ， 我 们 于 是 把 它 修 改 成 使 用 
IPv6， 但 这 样 做 却 只 是 给 了 我 们 另外 一 个 协议 相关 的 程序 。 我 们 将 在 
第 11 章 中 开发 一 些 可 用 来 编写 协议 无 关 代 码 的 函数 ， 这 在 因特网 开始 
使 用 IPv6 后 会 变 得 非常 重要 。 


纵 贯 本 书 ， 我 们 将 使 用 1.4 和 中 介绍 的 包 右 函数 来 缩短 代码 ， 同 时 


又 保证 测试 每 个 画 数 调用 ， 检 查 是 否 返 回 错误 。 我 们 的 包 衷 画 数 都 以 
一 个 大 写字 母 开头 。 
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单一 Unix 规 范 第 3 版 有 多 个 名 称 ， 我 们 简单 地 称 之 为 POSIX 规 范 。 
In eA 
结 起 来 o 


对 Unix 网 络 支 持 历史 感 兴趣 的 读者 可 参阅 叙述 Unix 历 史 的 [Salus 
1994] 和 和 叙述 TCP/AP 及 因特网 历史 的 [Salus 1995] ° 


习题 
14 按 1.9 节 未 尾 的 步 又 找 出 你 目 己 的 网 络 拓扑 的 信息 。 


1.2 ”获取 本 书 示例 的 源 代 码 〈 见 前 言 ) ， 编 译 并 测试 图 1-5 所 示 
的 TCP 时 间 获 取 客 户 程序 。 运 行 这 个 程序 铬 干 次 ， 每 次 以 不 同 IP 地 址 
作为 命令 行 参数 。 


13 ”把 图 1-5 中 的 socket 的 第 一 参数 改 为 9999。 编 译 并 运行 这 个 
程序 。 结 果 如 何 ? 找 出 对 应 于 所 输出 出 错 的 errno 值 。 你 如 何 可 以 找 
到 关于 这 个 错误 的 更 多 信息 ? 


14 ”修改 图 1-5 中 的 while 循 环 ， 加 入 一 个 计数 器， 连 计 read 返 
Bl m o 在 终止 前 输出 这 个 计数 器 值 。 编 译 并 运行 你 的 新 
YF o 


1.5 按 下 述 步 又 修改 图 1-9 中 的 程序 。 首 先 ， 把 赋 于 sin_port 的 
端口 号 从 13 改 为 9999。 然 后 ， 把 write 的 单一 调用 改 为 循环 调用 ， 
次 写 出 结果 字符 串 的 一 个 字 下 。 编 译 修改 后 的 服务 恬 程 序 并 在 后 台 启 
动 执行 。 接 着 修改 前 一 道 习 题 中 的 客户 程序 ( 它 在 终止 前 输出 计数 器 
值 ) ， 把 赋 于 sin_port 的 端口 号 从 13 改 为 9999。 启 动 这 个 客户 程 
序 ， 指 定 运行 修改 后 的 服务 器 程序 的 主机 的 IP 地 址 作为 命令 行 参数 。 
客户 程序 计数 器 的 输出 值 是 多 少 ? 如 果 可 能 ， 在 不 同 主机 上 运行 这 个 
客户 与 服务 器 程序 。 


@ 本 书 英 文 原文 通 篇 频繁 使 用 client (RA) 和 server (服务 器 ) 这 两 
个 术语 。 实 际 上 它们 的 具体 含义 随 上 下 文 而 变化 ， 有 时 指 静 态 的 产程 
序 或 可 执行 程序 (客户 程序 和 服务 器 程序 ， 有 时 指 动态 进程 (客户 
进程 和 服务 右 进 程 ， 有 时 指 运行 进程 的 主机 (客户 主机 和 服务 器 主 
机 ) 。 在 不 致 引起 混 消 的 前 提 下 ， 我 们 人 简单 地 称 客 户 进 程 为 客户 ， 称 
服务 絮 进 程 为 服务 右 。 一 一 译 者 注 


@ 应 用 (application) 这 个 术语 的 具体 含义 随 上 下 文 而 变化 ， 有 时 指 程 
FE (应 用 程序 ) ， 有 时 指 进程 (应 用 进程 ) ， 有 时 作为 名 词性 修饰 词 
译 为 应 用 。 本 书 有 时 把 同 处 应 用 层 的 客户 和 服务 器 对 也 用 应 用 表示 ， 

我 们 称 之 为 应 用 系统 、 网 络 应 用 或 应 用 。 一 一 译 者 注 


@Unix 系 统 中 程序 (program) 和 进程 (process) 是 在 系统 调用 exec 
上 衔接 的 。exec 既 可 以 由 shell 隐 式 调用 (直接 输入 命令 行 执 行程 序 属 
于 这 种 情况 ) ， 也 可 以 在 用 户 程序 中 显 式 调用 。 显 式 exec 调 用 执行 的 
程序 在 本 书 中 称 为 狐 程 序 ， 以 示 与 exec 调 用 所 在 程序 的 区 别 。exec 
调用 前 后 两 个 程序 实际 上 在 同一 个 进程 环境 下 执行 ， 不 过 往往 使 用 狐 
程序 的 名 字 来 称呼 这 个 进程 。exec 调 用 往往 跟 在 某 个 fork 调 用 之 
后 ， 这 样 新 程序 将 在 新 的 进程 环境 中 执行 。 客 户 程 序 和 迭代 服务 器 程 
序 运 行 时 通常 只 有 一 个 进程 ， 并 发 服务 器 程序 运行 时 除 主 进程 外 ， 通 
党 还 为 每 个 客户 派生 一 个 进程 。 程 序 和 进程 的 密切 关系 使 得 两 者 有 了 时 
相互 渗透 使 用 ， 不 易 区 分 。 一 一 译 者 注 


@internet 一 词 有 多 种 含义 。 一 是 网 际 网 (internet) ， 采 用 TCP/IP 协 议 
族 通 信 的 任何 网 络 都 是 网 际 网 ， 因 特 网 就 是 一 个 网 际 网 。 二 是 因特网 
(Internet) ， 它 是 一 个 专用 名 词 ， 特 指 从 ARPANET 发 展 而 来 的 连接 
全 球 各 个 ISP 的 大 型 网 际 网 。 三 是 作为 名 词性 修饰 词 ， 这 时 应 根据 情况 

分 别 译 成 “因特网 >、“ 网 际 网 ”或 “网 际 ”。 例 如 ， Internet Protocol 译 
成 “网 际 协 议 ” (注意 : "Internet Protocol” 是 “internet protocol” 一 词 名 词 
专用 化 的 结果 ) ;，Internet Society 则 译 成 < 因特网 学 会 ”。 应 注意 区 分 因 
特 网 和 网 际 网 这 两 个 概念 : 因特网 只 有 一 个 ， 为 了 确保 其 中 任何 一 个 
PA 〈 主 机 或 路 由 器 ) 都 能 寻 址 到 ， 其 寻 址 规则 和 地 址 分 配方 案 是 全 
球 统一 的 ; 不 属于 因特网 的 网 际 网 却 可 以 为 其 中 的 节点 任意 分 配 地 
址 ， 壁 如 说 把 因特网 中 的 多 播 地 址 (224.0.0.004) 分 配 用 于 单 播 目的 也 
没有 问题 ， 因 为 地 址 属性 ( 单 播 、 多 播 、 广 播 、 回馈、 私 用 等 ) ZEN 
外 配置 到 TCP/IP 协 议 族 上 的 ， 并 非 TCP/IP 协 议 族 的 本 质 特征 ， 尺 管 实 
际 上 TCP/IP 的 各 个 实现 几乎 一 律 采 用 因特网 的 寻 址 规则 。 虽 然 国 内 权 
威 机 构 已 经 为 “Internet” 一 词 正 过 中 文 名 (因特网 ， 许 多 文献 仍然 沿 
用 “互联 网 ”这 个 不 确切 的 名 称 。 互 联网 的 说 法 是 相对 内 联网 

(intranet) 而 言 的 ， 后 者 特 指使 用 因特网 私 用 地 址 寻 址 各 个 节点 的 网 
际 网 ， 因 而 只 是 比较 特殊 的 网 际 网 。 一 一 译 者 注 


@ 严 格 地 说 ，C 语 言 中 用 #define 伪 命令 定义 的 对 象 称 为 常数 ， 用 
const 限 定 词 定义 并 初始 化 的 对 象 称 为 常量 〈 相 对 于 变量 而 言 ) °% 


数 的 值 在 编译 时 确定 ， 第 量 的 值 则 在 运行 时 初始 化 后 确定 (不 过 此 后 
只 能 作为 右 值 使 用 ) 。 本 书 绝 大 多 数 恒 定 值 是 用 #define 定 义 的 肖 
数 。 不 过 “常数 ”这 一 称谓 容易 让 人 狭义 地 理解 成 仅仅 是 数 而 已 ， 因 此 
本 书 统一 使 用 “ 常 值 ” 指 代 其 值 恒定 不 变 的 对 象 。 一 一 译 者 注 


@socket 一 词 译 者 认为 译 成 “ 套 接 口 * 更 为 准确 ， 其 理由 如 下 。 首 先 ， 作 
为 网 络 编程 API 之 一 的 套 接口 (sockets， 注 意 这 种 用 法 总 是 采用 复数 
形式 ， 如 sockets API、sockets library 等 ) 跟 XTI 一 样 ， 是 应 用 层 到 传输 
层 或 其 他 协议 层 的 访问 接口 。 其 次 ， 具 体 使 用 的 套 接 口 是 与 Unix 管 道 
的 某 一 端 类 似 的 东西 ， 我 们 既 可 以 往 这 个 “ 口 ? 写 数据 ， 也 可 以 从 这 
个 “ 口 * 读 数据 。 最 后 ， 套 接口 钞 数 使 用 套 接口 描述 字 (discriptor) Ui 
问 具 体 的 套 接口 ， 如 果 把 套 接口 揪 述 字 的 简称 sockfd 译 成 “ 套 接 字 *” 倒 
比较 合适 。 从 这 个 意义 上 看 ， 一 个 套 接 口 可 对 应 多 个 套 接 字 ， 因 为 
Unix 的 描述 字 既 可 以 复制 ， 也 可 以 继承 ， 反 过 来 ， 一 个 套 接 字 对 应 量 
只 对 应 一 个 套 接 口 。 但 是 ， 鉴 于 现在 socket 广 泛 被 接受 的 译 法 是 “ 套 接 
字 ”， 所 以 本 书 亦 采用 了 “ 套 接 字 ” 的 译 法 。 相 应 地 ，descriptor 也 采用 
了 *“ 撒 述 符 ” 的 译 法 ， 而 未 坚持 译 为 “ 摘 述 字 ”。 编者 注 


O 为 求 简洁 明确 ， 本 书 以 后 尽量 采用 直接 把 函数 名 或 C 语 言 关 键 词 用 
作 动 词 的 译 法 。 例 如 ， 本 句 的 这 种 译 法 是 “我 们 read 服 务 器 的 应 答 ， 
并 fputs 结 有 末 。”; XW: “如 采 connect 成 功 ， 那 就 break 出 循 

环 。” 的 意思 是 : “如 果 connect 函 数 调 用 成 功 (表示 连接 成 功 ) ， 那 
就 执行 C 语 言 的 break 语 句 跳 出 循环 。” 


@ 计 算 机 网 络 各 层 对 等 实体 间 交 换 的 单位 信息 称 为 协议 数据 单元 
(protocol data unit, PDU) ， 分 节 (segment) 就 是 对 应 于 TCP 传 输 层 
的 PDU。 按 照 协 议 与 服务 之 间 的 关系 ， 除 了 最 低层 (物理 层 ) 外 ， 
层 的 PDU 通 过 由 紧邻 下 层 提供 给 本 层 的 服务 接口 ， 作 为 下 层 的 服务 数 
据 单元 (service data unit, SDU) 传递 给 下 层 ， 并 由 下 层 间 接 完 成 本 
层 的 PDU 交 换 。 如 采 本 层 的 PDU 大 小 超过 紧邻 下 层 的 最 大 SDU 限 制 ， 
那么 本 层 还 要 事先 把 PDU 划 分 成 者 干 个 合适 的 片段 让 下 层 分 开 载 送 ， 
再 在 相反 方向 把 这 些 片段 重组 成 PDU。 同 一 层 内 SDU 作 为 PDU 的 净 荷 
(payload) 字段 出 现 ， 因 此 可 以 说 上 层 PDU 由 本 层 PDU (通过 其 SDU 
字段 ) 承载 。 每 层 的 PDU 除 用 于 承载 紧邻 上 层 的 PDU 〈 即 承载 数据 ) 
外 ， 也 用 于 承载 本 层 协议 内 部 通信 所 需 的 控制 信息 。 由 于 本 书 涉及 
PDU 种 类 较 多 ， 为 避免 混淆 ， 我 们 在 本 革 末 汇总 简要 说 明 。 
应 用 层 实 体 (如 客户 或 服务 器 进程 ， 间 交换 的 PDU 称 为 应 用 数据 


(application data) ， 其 中 在 TCP 应 用 进程 之 间 交 换 的 是 没有 长 度 限 制 
的 单个 双 回 字 和 万 流 ， 在 UDP 应 用 进程 之 间 交 换 的 是 其 长 度 不 超过 UDP 
发 送 缓冲 区 大 小 的 单个 记录 (record) ， 在 SCTP 应 用 进程 之 间 交 换 的 
是 没有 总 长 度 限 制 的 单个 或 多 个 双 癌 记录 流 。 传 输 层 实体 (例如 对 应 
某 个 端口 的 传输 层 协议 代码 的 一 次 运行 ) 间 交换 的 PDU 称 为 消息 

(message) ， 其 中 TCP 的 PDU 特 称 为 分 节 (segment) 。 消 息 或 分 市 
的 长 度 是 有 限 的 。 在 TCP 传 输 层 中 ， 发 送 问 TCP 把 来 自 应 用 进程 的 字 
节 流 数据 ( 即 由 应 用 进程 通过 一 次 次 输出 操作 写 出 到 发 送 端 TCP 套 接 
字 中 的 数据 ) 按 顺 序 经 分 割 后 封装 在 各 个 分 节 中 传送 给 接收 端 TCP， 

其 中 每 个 分 节 所 封闭 的 数据 既 可 能 是 发 送 端 应 用 进程 单 次 输出 操作 的 
结果 ， 也 可 能 是 连续 数 次 输出 操作 的 结果 ， 而 且 每 个 分 和 所 封装 的 单 
次 输出 操作 的 结果 或 者 首尾 两 次 输出 操作 的 结果 既 可 能 是 完整 的 ， 也 
可 能 是 不 完整 的 ， 具 体 取决 于 可 在 连接 建立 阶段 由 对 端 通告 的 最 大 分 
节 大 小 (maximum segment size, MSS) 以 及 外 出 接口 的 最 大 传输 单元 

(maximum transmission unit, MTU) 或 外 出 路 径 的 路 径 MTU (如 果 
网 络 层 具有 路 径 MTU 发 现 功能 ， 如 IPv6) 。 分 节 除 了 用 于 承载 应 用 数 
据 外 ， 也 用 于 建立 连接 〈SYN 分 节 ) 、 终 止 连接 (FINST) 、 中 止 
连接 (RST 分 节 ) 、 确 认 数据 接收 (ACKZ B) 、 刷 送 竺 发 数据 

(PSH 分 节 ) 和 携带 紧急 数据 指针 (URGA) ， 而 且 这 些 功能 ( 包 
括 承 载 数据 ) 可 以 灵活 组 合 。UDP 传 输 层 相当 简单 ， 发 送 端 UDP 就 把 
来 目 应 用 进程 的 单个 记录 整个 封 痛 在 UDP 消息 中 传送 给 接收 端 UDP 。 
SCTP 引 入 了 称 为 块 (chunk) 的 数据 单元 ，SCTP 消 息 就 由 一 个 公共 首 
部 加 上 一 个 或 多 个 块 构成 : 公共 首部 类 似 UDP 消 息 的 首部 ， 仅 仅 给 出 
源 目的 端口 号 和 整个 SCTP 消 息 的 校 验 和 ; 块 则 既 可 以 承载 数据 ( 称 为 
DATA 块 ) ， 也 可 以 承载 控制 信息 ( 计 有 SACK 块 、INIT 块 、INIT 
ACK 块 、COOKIE ECHO 块 、COOKIE ACKER ` SHUTDOWNEER > 
SHUTDOWN ACK 块 、SHUTDOWN COMPLETE 块 、ABORT 块 、 
ERROR 块 、HEARTBEAT 块 和 HEARTBEAT ACK 块 ， 总 称 为 控制 
IR) 。 发 送 端 SCTP 把 来 自 应 用 进程 的 (一 个 或 多 个 ) 记录 流 数 据 按照 
流 内 顺序 和 记录 边界 封装 在 各 个 DATA 块 中 ， 并 在 DATA 块 首部 记 上 各 
自 的 流 ID。 一 个 记录 通常 对 应 一 个 DATA 块 ， 对 于 过 长 的 记录 ， 发 送 
端 SCTP 既 可 以 像 UDP 那 样 拒 绝 发 送 ， 也 可 以 把 它们 拆 分 到 多 个 DATA 
块 中 以 便 发 送 ， 接 收 端 SCTP 收 取 后 把 它们 组 合成 单个 记录 上 传 。 作 为 
传输 层 PDU 的 SCTP 消 息 既 可 以 只 包含 单个 块 (DATA 块 或 控制 块 ) ， 
也 可 以 在 接口 MTU 或 路 径 MTU 的 限制 下 包含 多 个 块 〈 称 为 块 的 捆绑 ， 
控制 块 在 前 ，DATA 块 在 后 ) ， 不 过 INIT 块 、INIT ACK 块 和 
SHUTDOWN COMPLETE 块 不 能 跟 任 何其 他 块 捆 绑 。SCTP 收 发 两 端 


均 独 立 处 理 捆 绑 在 同一 个 消息 中 的 各 个 块 ， 鉴 于 此 ， 我 们 可 以 直接 把 
块 作为 传输 层 PDU 看 待 ， 本 书 也 往往 这 么 使 用 。 
网 络 层 实 体 间 交换 的 PDU 称 为 IP 数 据 报 (IP datagram) ， 其 长 度 有 
BR: IPv4 数 据 报 最 大 65 535 字 节 ，IPv6 数 据 报 最 大 65 575 字 节 。 发 送 端 
IP 把 来 目 传 输 层 的 消息 (TCP) 整个 封 痛 在 卫 数 据 报 中 传送 。 
链 路 层 实 体 间 交换 的 PDU 称 为 帧 (frame) ， 其 长 度 取决 于 具体 的 接 
口 。 了 PP 数据 报 由 IP 首 部 和 所 承载 的 传输 层 数据 〈 即 网 络 层 的 SDU) 构 
成 。 过 长 的 也 数据 报 无 法 封装 在 单个 帧 中 ， 需 要 先 对 其 SDU 进 行 分 斤 
(fragmentation) ， 再 把 分 成 的 各 个 片段 (fragment) 冠 以 新 的 人 P 首 部 
封装 到 多 个 帧 中 。 在 一 个 IP 数 据 报 从 源 端 到 目的 端的 传送 过 程 中 ， 分 
片 操作 既 可 能 发 生 在 源 端 ， 也 可 能 发 生 在 途中 ， 而 其 逆 操 作 即 重组 
(reassembly) 一 般 只 发 生 在 目的 端 ; SCTP 为 了 传送 过 长 的 记录 采取 
了 类 似 的 分 片 和 重组 措施 。TCP/IP 协 议 族 为 提高 效率 会 尽 可 能 避免 IP 
的 分 片 /重组 操作 : TCP 根 据 MSS 和 MTU 限 定 每 个 分 节 的 大 小 以 及 
SCTP 根 据 MTU 分 片 /重组 过 长 记录 都 是 这 个 目的 《SCTP 的 块 捆绑 则 是 
为 了 在 避免 IP 分 片 /重组 操作 的 前 提 下 提高 块 传输 效率 ) ; 另外 ，IPv6 
禁止 在 途中 的 分 片 操作 (基于 其 路 径 MTU 发 现 功 能 ) ，IPv4 也 尽量 避 
免 这 种 操作 。 不 论 是 否 分 片 ， 都 由 了 P 作 为 链 路 层 的 SDU 传 入 链 路 层 ， 
并 由 链 路 层 封装 在 帧 中 的 数据 称 为 分 组 (packet， 俗 称 包 ) 。 可 见 一 
个 分 组 既 可 能 是 一 个 完整 的 IP 数 据 报 ， 也 可 能 是 某 个 IP 数 据 报 的 SDU 
的 一 个 片段 被 冠 以 新 的 了 首部 后 的 结果 。 另 外 ， 本 书 中 讨论 的 MSS 是 
MAE (TCP) 与 传输 层 之 间 的 接口 属性 ，MTU 则 是 网 络 层 和 链 路 层 
之 间 的 接口 属性 。 
上 上述 讨论 参见 RFC 1122 ` RFC 793 ` RFC 768 ` RFC 3286 ` RFC 2960 
和 本 书 2.11 节 、7.9 节 。 男 外 需 注意 的 是 ，SCTP 目 前 只 是 处 于 提案 标准 
(proposed standard) 阶段 ， 尚 未 进入 能 够 被 多 数 厂 商 采 纳 并 实现 的 草 
案 标准 (draft standard) 阶段 ， 更 没有 像 TCP 和 UDP 那样 历经 考验 而 成 
为 因特网 标准 (分 配 STD 号 ) » ——i yt 


OFM (manual page 或 man page) 是 所 有 Unix 系 统 都 提供 的 使 用 
man 命 令 查看 到 的 有 关 命 令 、 函 数 和 文件 等 的 帮助 信息 。 某 个 条 目的 
手册 页 面 就 是 以 该 条 目 为 命令 行 参数 执行 nan 的 输出 。 一 -一 译 者 注 


四 这 里 被 认可 标准 (approved standard) 意思 是 成 为 正式 标准 前 的 特定 
阶段 。 一 一 译 者 注 


Bom ”传输 层 : TCP、UDP 和 
SCTP 


2.1 概述 


本 章 提 供 本 书 示例 所 用 TCP/P 协 议 的 概貌 。 我 们 的 目的 是 从 网 络 
编程 角度 提供 足够 的 细 市 以 理解 如 何 使 用 这 些 协议 ， 同 时 提供 有 关 这 
些 协议 的 实际 设计 、 实 现 及 历史 的 具体 描述 的 参考 点 。 


本 章 的 焦点 是 传输 屋 ， 包 括 TCP、UDP 和 SCTP (Stream Control 
Transmission Protocol， 流 控制 传输 协议 ) 。 绝 大 多 数 客户 /服务 器 网 络 
应 用 使 用 TCP 或 UDP。SCTP 是 一 个 较 新 的 协议 ， 最 初 设计 用 于 跨 因 特 
网 传输 电话 信 令 。 这 些 传 输 协 议 都 转 而 使 用 网 络 层 协议 IP: 或 是 
IPV4， 或 是 IPV6。 尺 管 可 以 绕 过 传输 层 直 接 使 用 IPv4 或 IPv6， 但 这 种 
技术 (往往 称 为 原始 套 接 字 ) 却 极 少 使 用 。 因 此 ， 我 们 把 IPv4 和 IPv6 
以 及 ICMPv4 和 ICMPv6 的 详细 描述 安排 在 附录 A 中 。 


UDP 是 一 个 简单 的 、 不 可 靠 的 数据 报 协议 ， 而 TCP 是 一 个 复杂 、 
可 靠 的 字 节 流 协 议 。SCTP 与 TCP 类 似 之 处 在 于 它 也 是 一 个 可 靠 的 传输 
协议 ， 但 它 还 提供 消息 边界 、 传 输 级 别 多 宿 (multihoming) 支持 以 及 
将 头 端 阻 塞 (head-of-line blocking) 减少 到 最 小 的 一 种 方法 。 我 们 必 
须 了 解 由 这 些 传输 层 协议 提供 给 应 用 进程 的 服务 ， 这 样 才能 弄 清 这 些 
协议 处 理 什么 ， 应 用 进程 中 又 需要 处 理 什么 。 


TCP 的 某 些 特性 一 旦 理解 ， 束 很 容易 编写 健壮 的 客户 和 服务 器 程 
序 ， 也 很 容易 使 用 诸如 netstat 等 普遍 可 用 的 工具 来 调试 客户 和 服务 
器 程序 。 本 章 将 阐述 以 下 相关 主题 ，TCP 的 三 路 握手 、TCP 的 连接 终 
止 序列 和 TCP 的 TIME_WAIT 状 态 ，SCTP 的 四 路 握手 和 SCTP 的 连接 终 
止 ， 加 上 由 套 接 字 层 提供 的 TCP、UDP 和 SCTP 绥 冲 机 制 ， 等 等 。 


22 总 图 


虽然 协议 族 被 称 为 “TCP/IP”， 但 除了 TCP 和 IP 这 两 个 主要 协议 
外 ， 还 有 许多 其 他 成 员 。 图 2-1 展 示 了 这 些 协 议 的 概况 。 
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图 2-1 ”TCP/IP 协 议 概 况 


图 2-1 中 同时 展示 了 IPv4 和 IPvV6。 从 右 向 左 查看 该 图 ， 最 右边 的 5 
个 网 络 应 用 在 使 用 IPv6; 我 们 将 在 第 3 章 中 随 sockaddr_in6 结 构 讲 
解 AF_INET6 常 值 。 随 后 的 6 个 网 络 应 用 使 用 IPv4。 


最 左边 名 为 tcpdump 的 网 络 应 用 或 者 使 用 BSD 分 组 过 滤器 (BSD 
packet filter, BPF) ， 或 者 使 用 数据 链 路 提供 者 接口 (datalink provider 
interface, DLPI) 直接 与 数据 链 路 进行 通信 。 处 于 其 右边 所 有 9 个 应 用 
下 面 的 虚线 标记 为 API， 它 通常 是 套 接 字 或 XTI。 访 问 BPF 或 DLPI 的 接 
口 不 使 用 套 接 字 或 XTI。 


这 种 情况 存在 一 个 例外 : Linux 使 用 一 种 称 为 SOCK_PACKET 的 特 
ere 问 。 我 们 将 在 第 28 章 中 详细 讲述 
这 个 例外 。 


图 2-1 中 还 标明 traceroute 程 序 使 用 两 种 套 接 字 : IP 套 接 字 用 于 
访问 I，ICMP 套 接 字 用 于 访问 ICMP。 在 第 28 章 中 ， 我 们 将 开发 ping 
和 traceroute 这 两 个 应 用 的 IPv4 和 IPv6 版 本 。 


下 面 我 们 讲解 一 下 图 2-1 中 的 每 一 个 协议 框 。 


IPv4 网 际 协 议 版 本 4 (Internet Protocol version 4) 。IPv4 (通常 
称 之 为 IP) 目 20 世 纪 80 年 代 早期 以 来 一 直 是 网 际 协 议 族 的 主力 协议 。 
它 使 用 32 位 地 址 ( 见 A.4 节 ) 。IPv4 给 TCP、UDP、SCTP、ICMP 和 
IGMP 提 供 分 组 递送 服务 。 


Pv6 网际 协议 版 本 6 (Internet Protocol version 6) 。IPv6 是 在 20 
世纪 90 年 代 中 期 作为 IPv4 的 一 个 替代 品 设计 的 。 其 主要 变化 是 使 用 128 
位 更 大 地 址 GLAST) 以 应 对 20 世 纪 90 年 代 因 特 网 的 爆发 性 增长 。 
IPv6 给 TCP、UDP、SCTP 和 ICMPv6 提 供 分 组 递送 服务 。 


当 无 需 区 别 IPv4 和 IPv6 时 ， 我 们 经 常 把 “IP" 一 词 作为 形容 词 使 
用 ， 如 IP 层 、IP 地 址 等 。 


TCP 传输 控制 协议 (Transmission Control Protocol) 。TCP 是 一 
个 面向 连接 的 协议 ， 为 用 户 进程 提供 可 靠 的 全 双 工 字 节 流 。TCP 套 接 
字 是 一 种 流 套 接 字 (stream socket) 。TCP 关 心 确认 、 超 时 和 重 传 之 类 
的 细节 。 大 多 数 因特网 应 用 程序 使 用 TCP。 注 意 ，TCP 既 可 以 使 用 
IPv4， 也 可 以 使 用 IPv6 ° 


UDP 用 户 数据 报 协 议 (User Datagram Protocol) 。UDP 是 一 个 
无 连接 协议 。UDP 套 接 字 是 一 种 数据 报 套 接 字 (datagram socket) ° 
UDP 数据 报 不 能 保证 最 终 到 达 它 们 的 目的 地 。 与 TCP 一 样 ，UDP 既 可 
以 使 用 IPv4， 也 可 以 使 用 IPv6 ° 


SCTP 流 控制 传输 协议 (Stream Control Transmission 
Protocol) 。SCTP 是 一 个 提供 可 靠 全 双 工 关联 的 面 癌 连接 的 协议 ， 我 
们 使 用 “关联 ”一 词 来 指称 SCTP 中 的 连接 ， 因 为 SCTP 是 多 条 的 ， 从 而 
每 个 关联 的 两 端 均 涉 及 一 组 了 地 址 和 一 个 端口 号 。SCTP 提 供 消 息 服 


务 ， 也 就 是 维护 来 目 应 用 层 的 记录 边界 。 与 TCP 和 UDP 一 样 ，SCTP 既 
也 可 以 使 用 IPv6， 而 且 能 够 在 同一 个 关联 中 同时 使 用 
它们 。 


ICMP 网际 控制 消息 协议 (Internet Control Message Protocol) ° 
ICMP 处 理 在 路 由 器 和 主机 之 间 流 通 的 错误 和 控制 消息 。 这 些 消息 通常 
由 TCP/ 卫 网 络 文 持 软件 本 号 (而 不 是 用 户 进 程 ， 产 生 和 处 理 ， 不 过 图 
中 展示 的 ping 和 traceroute 程 序 同 样 使 用 ICMP。 有 时 我 们 称 这 个 
协议 为 ICMPv4， 以 便 与 ICMPv6 相 区 别 。 


IGMP 网 际 组 管理 协议 (Internet Group Management Protocol) 
IGMP 用 于 多 播 ( 见 第 21 章 ) ， 它 在 IPv4 中 是 可 选 的 。 
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ARP 地 址 解析 协议 (Address Resolution Protocol) 。ARP 把 一 个 
IPv4 地 址 映射 成 一 个 硬件 地 址 《如 以 太 网 地 址 ) 。ARP 通 常用 于 诸如 
以 太 网 、 令 牌 环 网 和 FDDI 等 广播 网 络 ， 在 后 到 点 网 络 上 并 不 需要 。 


RARP 反 癌 地 址 解析 协议 (Reverse Address Resolution 
Protocol) 。RARP 把 一 个 人 硬件 地 址 映射 成 一 个 IPv4 地 址 。 它 有 时 用 于 
无 盘 广 点 的 引导 。 


ICMPv6 网际 控制 消息 协议 版 本 6 (Internet Control Message 
Protocol version 6) 。ICMPv6 综 合 了 ICMPv4、IGMP 和 ARP 的 功能 。 


BPF ”BSD 分 组 过 滤器 (BSD packet filter) 。 该 接口 提供 对 于 数 
据 链 路 层 的 访问 能 力 ， 通 常 可 以 在 源 自 Berkeley 的 内 核 中 找到 。 


DLPI 数据 链 路 提供 者 接口 (datalink provider interface) ° 该 接 
口 也 提供 对 于 数据 链 路 层 的 访问 能 力 ， 通 常 随 SVR4 内 核 提 供 。 


所 有 网 际 协议 由 一 个 或 多 个 称 为 请 求 评注 (Request for 
Comments, RFC) 的 文档 定义 ， 这 些 RFC 束 是 它们 的 正式 规范 。 习 题 
2.1 的 答案 说 明 如 何 获 得 这 些 RFC。 


我 们 使 用 术语 “IPv4/IPv6 主 机 ”或 “ 双 栈 主机 "表示 同时 支持 IPv4 和 
IPv6 的 主机 e 


TCP/IP 协 议 的 其 他 细节 参见 TCPv1。TCP/IP 在 4.4BSD 上 的 实现 参 
见 TCPv2 ° 


2.3 ”用 户 数 据 报 协 议 (UDP) 


UDP 是 一 个 简单 的 传输 层 协 议 ， 在 RFC 768 [Postel 1980] 中 有 详 
细 说 明 。 应 用 进程 往 一 个 UDP 套 接 字 写 入 一 个 消息 ， 该 消息 随后 被 封 
装 (encapsulating) 到 一 个 UDP 数据 报 ， 该 UDP 数据 报 进而 又 被 封装 到 
一 个 卫 数 据 报 ， 然 后 发 送 到 目的 地 。UDP 不 保证 UDP 数据 报 会 到 达 其 
最 终 目 的 地 ， 不 保证 各 个 数据 报 的 先后 顺序 跨 网 络 后 保持 不 变 ， 世 不 
保证 每 个 数据 报 只 到 达 一 次 。 


我 们 使 用 UDP 进行 网 络 编程 所 遇 到 的 问题 是 它 缺 乏 可 靠 性 。 如 采 
一 个 数据 报到 达 了 其 最 终 目的 地 ， 但 古 校 验 和 检测 发 现 有 错误 ， 或 者 
该 数据 报 在 网 络 传 输 途 中 被 丢弃 了 ， 它 就 无 法 被 投递 给 UDP 套 接 字 ， 
也 不 会 被 源 端 目 动 重 传 。 如 有 果 想 要 确保 一 个 数据 报到 达 其 目的 地 ， 可 
2 a 来 目 对 端的 确认 、 本 端的 超时 与 


每 个 UDP 数据 报 都 有 一 个 长 度 。 如 果 一 个 数据 报 正 确 地 到 达 其 目 
的 地 ， 那 么 该 数据 报 的 长 度 将 随 数据 一 道 传 递 给 接收 端 应 用 进程 。 我 
们 已 经 提 到 过 TCP 是 一 个 字 节 流 (byte-stream) 协议 ， 没 有 任何 记录 
边界 (11.2275) ， 这 一 点 不 同 于 UDP。 


我 们 也 说 UDP 提供 无 连接 的 《connectionless) 服务 ， 因 为 UDP 客 
户 与 服务 器 之 间 不 必 存 在 任何 长 期 的 关系 。 举 例 来 说 ， 一 个 UDP 客户 
可 以 创建 一 个 套 接 字 并 发 送 一 个 数据 报 给 一 个 给 定 的 服务 器 ， 然 后 立 
即 用 同一 个 套 接 字 发 送 另 一 个 数据 报 给 另 一 个 服务 器 。 同 样 地 ， 一 个 
UDP 服务 器 可 以 用 同一 个 UDP 套 接 字 从 若干 个 不 同 的 客户 接收 数据 
报 ， 每 个 客户 一 个 数据 报 。 


2.4 ”传输 控制 协议 (TCP) 


由 TCP 回 应 用 进程 提供 的 服务 不 同 于 由 UDP 提供 的 服务 。TCP 在 
RFC 793 [Poste] | 中 有 详细 说 明 ， 然 后 由 RFC 1323 |Jacobson, 
Braden, and Borman 1992| ^ RFC 2581 |Allman, Paxson, and Stevens 
1999] ` RFC 2988 | Paxson and Allman 2000] 和 RFC 3390 | Allman, 
Floyd, and Partridge 2002 | 加 以 更 新 。 首 先 ，TCP 提 供 客 户 与 服务 器 之 
间 的 连接 (connection) 。TCP 客 户 先 与 某 个 给 定 服务 器 建立 一 个 连 
接 ， 再 跨 该 连接 与 那个 服务 絮 交 换 数 据 ， 然 后 终止 这 个 连接 。 


其 次 ，TCP 还 提供 了 可 人 靠 性 (reliability) 。 当 TCP 向 另 一 端 发 送 
数据 时 ， 它 要 求 对 端 返回 一 个 确认 。 如 果 没 有 收 到 确认 ，TCP 就 自动 
重 传 数 据 并 等 待 更 长 时 间 。 在 数 次 重 传 失 败 后 ，TCP 才 放弃 ， 如 此 在 
党 试 发 送 数据 上 所 花 的 总 时 间 一 般 为 4 一 10 分 钟 〈 依 赖 于 具体 实现 ) 。 


注意 ，TCP 并 不 保证 数据 一 定 会 被 对 方 端点 接收 ， 因 为 这 二 不 可 
能 做 到 的 。 如 采 有 可 能 ，TCP 束 把 数据 递送 到 对 方 端点 ， 否 则 吏 ( 通 
过 放弃 重 传 并 中 断 连 接 这 一 手段 ) 通知 用 户 。 这 么 说 来 ，TCP 也 不 能 
被 描述 成 是 100% 可 知 的 协议 ， 它 提供 的 是 数据 的 可 靠 递 送 或 故障 的 可 
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TCP 含 有 用 于 动态 估算 客户 和 服务 器 之 间 的 往返 时 间 (round-trip 
time, RTT) 的 算法 ， 以 便 它 知道 等 行 一 个 确认 需要 多 少时 间 。 举 例 
来 说 ，RTT 在 一 个 局 域 网 上 大 约 是 几 怠 秒 ， 跨 越 一 个 广域网 则 可 能 古 
数秒 钟 。 男 外 ， 因 为 RTT 受 网 络 流通 各 种 变化 因素 影响 ，TCP 还 持续 
估算 一 个 给 定 连 接 的 RIT。 


TCP 通 过 给 其 中 每 个 字 节 关联 一 个 序列 号 对 所 发 送 的 数据 进行 排 
HF (sequencing) 。 举 例 来 说 ， 假 设 一 个 应 用 写 2048 字 节 到 一 个 TCP 套 
接 字 ， 导 致 TCP 发 送 2 个 分 节 : 第 一 个 分 节 所 含 数据 的 序列 号 为 1 
1024， 第 二 个 分 节 所 含 数 据 的 序列 号 为 1025~-2048。 (分 节 是 TCP 传 
递 给 也 的 数据 单元 。) 如 果 这 些 分 节 非 顺序 到 达 ， 接 收 端 TCP 将 先 根 
据 它 们 的 序列 号 重新 排序 ， 再 把 结果 数据 传递 给 接收 应 用 。 如 果 接 收 
端 TCP 接 收 到 来 自 对 端的 重复 数据 〈 璧 如 说 对 端 认为 一 个 分 节 已 丢失 
并 因此 重 传 ， 而 这 个 分 节 并 没有 真正 丢失 ， 只 是 网 络 通信 过 于 拥 
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UDP 不 提供 可 靠 性 。UDP 本 刁 不 提供 确认 、 序 列 号 、RIT 估 算 、 
超时 和 重 传 等 机 制 。 如 果 一 个 UDP 数据 报 在 网 络 中 被 复制 ， 两 份 副 本 
瓯 可 能 都 递送 到 接收 端的 主机 。 同 样 地 ， 如 果 一 个 UDP 客户 发 送 两 个 
数据 报到 同一 个 目的 地 ， 它 们 可 能 被 网 络 重新 排序 ， 苏 倒 顺序 后 到 达 
和 
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再 次 ，TCP 提 供 流 量 控制 (flow control) 。TCP 总 是 告知 对 端 在 
任何 时 刻 它 一 次 能 够 从 对 端 接收 多 少 字 节 的 数据 ， 这 称 为 通告 窗口 
(advertised window) 。 在 任何 时 刻 ， 该 窗口 指出 接收 缓冲 区 中 当前 
可 用 的 空间 量 ， 从 而 确保 发 送 端 发 送 的 数据 不 会 使 接收 缓冲 区 溢出 。 
该 窗口 时 刻 动态 变化 ， 当 接收 到 来 自发 送 端 的 数据 时 ， 窗 口 大 小 就 减 
小 ， 但 是 当 接 收 端 应 用 从 缓冲 区 中 读 取 数据 时 ， 窗 口 大 小 就 增 大 。 通 
告 窗口 大 小 减 小 到 0 是 有 可 能 的 : 当 TCP 对 应 某 个 套 接 字 的 接收 缓冲 区 
Taaa 


UDP 不 提供 流量 控制 。 如 我 们 将 在 8.13 节 所 示 ， 让 较 快 的 UDP 发 
送 端 以 一 个 UDP 接收 端 难以 跟 上 的 速率 发 送 数据 报 是 非常 容易 的 。 


最 后 ，TCP 连 接 是 全 双 工 的 (full-duplex) 。 这 意味 着 在 一 个 给 定 
的 连接 上 应 用 可 以 在 任何 时 刻 在 进出 两 个 方向 上 既 发 送 数据 又 接收 数 
据 。 因 此 ，TCP 必 须 为 每 个 数据 流 方 向 跟踪 诸如 序列 号 和 通告 窗口 大 
小 等 状态 信息 。 建 立 一 个 全 双 工 连接 后 ， 需 要 的 话 可 以 把 它 转换 成 一 
个 单 工 连接 ( 见 6.6 节 ) ° 


UDP 可 以 是 全 双 工 的 。 


2.5” 流 控制 传输 协议 (SCTP) 


SCTP 提 供 的 服务 与 UDP 和 TCP 提 供 的 类 似 。SCTP 在 RFC 2960 

[Stewart et al. 2000] 中 详细 说 明 ， 并 由 RFC 3309 [Stone, Stewart, and 
Otis 2002] 加 以 更 新 。RFC 3286 [Ong and Yoakum 2002] 给 出 了 
SCTP 的 简要 介绍 。SCTP 在 客户 和 服务 器 之 间 提 供 关 联 

(association) ， 并 像 TCP 那 样 给 应 用 提供 可 靠 性 、 排 序 、 流 量 控制 以 
及 全 双 工 的 数据 传送 。SCTP 中 使 用 “关联 "一 词 取 代 “ 连 接 " 是 为 了 避免 
这 样 的 内 涵 : 一 个 连接 只 涉及 两 个 IP 地 址 之 间 的 通信 。 一 个 关联 指 代 
T E 


与 TCP 不 同 的 是 ，SCTP 是 面向 消息 的 (message-oriented) ° Efe 
供 各 个 记录 的 按 序 递送 服务 。 与 UDP 一 样 ， 由 发 送 端 写 入 的 每 条 记录 
的 长 度 随 数 据 一 道 传递 给 授 收 器 应 用 。 


SCTP 能 够 在 所 连接 的 端点 之 间 提 供 多 个 流 ， 每 个 流 各 目 可 靠 地 按 
序 递 送 消 轧 。 一 个 流 上 某 个 消 轧 的 丢失 不 会 阻塞 同一 关联 其 他 流 上 消 
思 的 投递 。 这 种 做 法 与 TCP 正 好 相反 ， 束 TCP 而 言 ， 在 单一 字 下 流 中 
任何 位 置 的 字 节 丢失 都 将 阻塞 该 连接 上 其 后 所 有 数据 的 递送 ， 直 到 该 
丢失 被 修复 为 止 。 


SCTP 还 提供 多 和 窒 特 性 ， 使 得 单个 SCTP 端 点 能 够 文 持 多 个 IP 地 
址 。 该 特性 可 以 增强 应 对 网 络 故障 的 健壮 性 。 一 个 端点 可 能 有 多 个 元 
余 的 网 络 连接 ， 每 个 网 络 又 可 能 有 各 目 接 入 因特网 基础 设施 的 连接 。 
当 该 端点 与 另 一 个 端点 建立 一 个 关联 后 ， 如 果 它 的 某 个 网 络 或 某 个 跨 
越 因 特 网 的 通路 发 生 故 障 ，SCTP 了 束 可 以 通过 切换 到 使 用 已 与 该 天 联 相 
天 的 兄 一 个 地 址 来 规避 所 发 生 的 故障 。 


类 似 的 健壮 性 在 路 由 协议 的 辅助 下 也 可 以 从 TCP 中 获得 。 举 例 来 
说 ， 由 记 GP 实 现 的 同一 域内 的 BGP 连 接 往 往 把 赋予 路 由 器 内 某 个 虚拟 
接口 的 多 个 地 址 用 作 TCP 连 接 的 端点 。 该 域 的 路 由 协议 确保 两 个 路 由 
磊 之 间 只 要 存在 一 条 路 由 ， 该 路 由 束 会 被 用 上 ， 从 而 保证 这 两 个 路 由 
絮 之 间 的 BGP 连 接 可 用 ;， 要 是 使 用 属于 某 个 物理 接口 的 地 址 来 建立 


BGP 连 接 ， 该 物理 接口 又 变 得 不 工作 了 ， 这 一 点 就 不 可 能 做 到 。SCTP 
的 多 宿 特 性 允许 主机 《而 不 仅仅 是 路 由 器 ) 也 多 宿 ， 而 且 人 允许 多 宿 跨 
le 的 服务 供应 丙 发 生 ， 这 些 基于 路 由 的 TCP 多 宿 方 法 都 无 法 做 
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2.6 ” TCP 连接 的 建立 和 终止 


为 帮助 大 家 理解 connect、accept 和 close 这 3 个 函数 并 使 用 
netstat 程 序 调试 TCP 应 用 ， 我 们 必须 了 解 TCP 连 接 如 何 建立 和 终 
止 ， 并 掌握 TCP 的 状态 转换 图 。 


2.6.1 三 路 握手 
建立 一 个 TCP 连 接 时 会 发 生 下 述 情 形 。 


(1) 服务 器 必须 准备 好 接受 外 来 的 连接 。 这 通常 通过 调用 
socket、bind 和 1isten 这 3 个 函数 来 完成 ， 我 们 称 之 为 被 动 打开 


(passive open) ° 


(2) 客户 通过 调用 connect 发 起 主动 打开 (active open) 。 这 导 
致 客户 TCP 发 送 一 个 SYN (同步 ) 分 节 ， 它 告诉 服务 器 客户 将 在 ( 待 
建立 的 ) 连接 中 发 送 的 数据 的 初始 序列 号 。 通 常 SYN 分 市 不 携带 数 
据 ， 其 所 在 IP 数 据 报 只 含有 一 个 IP 首 部 、 一 个 TCP 首 部 及 可 能 有 的 TCP 
选项 (我 们 稍 后 讲解 。 


(3) 服务 器 必须 确认 (ACK) 客户 的 SYN， 同 时 自己 也 得 发 送 
一 个 SYN 分 节 ， 它 含有 服务 器 将 在 同一 连接 中 发 送 的 数据 的 初始 序列 
号 。 服 务 器 在 单个 分 节 中 发 送 SYN 和 对 客户 SYN 的 ACK (确认 ) e 

(4) 客户 必须 确认 服务 器 的 SYN 。 


这 种 交换 至 少 需要 3 个 分 组 ， 因 此 称 之 为 TCP 的 三 路 握手 (three- 
way handshake) 。 图 2-2 展 示 了 所 交换 的 3 个 分 市。 


客户 服务 器 
| socket,bind, listen 
uske 


suske s (被动 打 开 ) 
conect (FR) SYN 
= ccept (IHE 
(主动 打开 》 x P MEL aene 
SYN K, ACK ^T 一 一 
connect i& [El ———— CRURA acceptis [4] 
EN read CIR E 
图 2-2 TCP 的 三 路 握手 


图 2-2 给 出 的 客户 的 初始 序列 号 为 J， 服 务 器 的 初始 序列 号 为 K。 
ACK 中 的 确认 号 是 发 送 这 个 ACK 的 一 端 所 期 待 的 下 一 个 序列 号 。 因 为 
SYN SHB PF APIS Ze lal, BrbLS8R— TS SYNAYACK FAAS 
就 是 该 SYN 的 初始 序列 号 加 1。 类 似 地 ， 每 一 个 FIN (表示 结束 ) 的 
ACK 中 的 确认 号 为 该 FHIN 的 序列 号 加 1。 


建立 TCP 连 接 就 好 比 一 个 电话 系统 [Nemeth 1997] ° socketEN 
数 等 同 于 有 电话 可 用 。bind 范 数 是 在 告诉 别人 你 的 电话 号 码 ， 这 样 他 
们 可 以 呼叫 你 。1Listen 函 数 是 打开 电话 振 铃 ， 这 样 当 有 一 个 外 来 呼 
叫 到 达 时 ， 你 就 可 以 听 到 。connect 画 数 要 求 我 们 知道 对 方 的 电话 号 
码 并 拨打 它 。accept 函 数 发 生 在 被 呼叫 的 人 应 答 电话 之 时 。 由 
accept 返 回 客户 的 标识 ( 即 客户 的 IP 地 址 和 端口 号 ) 类 似 于 让 电话 机 
的 呼叫 者 ID 功能 部 件 显示 呼叫 者 的 电话 号 码 。 然 而 两 者 的 不 同 之 处 在 
于 accept 只 在 连接 建立 之 后 返回 客户 的 标识 ， 而 呼叫 者 ID 功能 部 件 
却 在 我 们 选择 应 答 或 不 应 答 电 话 之 前 显示 呼叫 者 的 电话 号 码 。 如 果 使 
用 域名 系统 DNS ( 见 第 11 章 ) ， 它 就 提供 了 一 种 类 似 于 电话 筹 的 服 
务 。getaddrinfo 类 似 于 在 电话 秒 中 查找 某 个 人 的 电话 号 码 ， 
ae 
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2.6.2 TCP 选项 


每 一 个 SYN 可 以 含有 多 个 TCP 选 项 。 下 面 是 常用 的 TCP 选 项 。 


。MSS 选 项 。 发 送 SYN 的 TCP 一 端 使 用 本 选项 通告 对 端 它 的 最 大 分 
节 大 小 (maximum segment size) 即 MSS， 也 就 是 它 在 本 连接 的 每 
个 TCP 分 市 中 愿意 接受 的 最 大 数据 量 。 发 送 端 TCP 使 用 接收 端的 

MSS 值 作为 所 发 送 分 节 的 最 大 大 小 。 我 们 将 在 7.9 节 看 到 如 何 使 用 
TCP_MAXSEG 套 接 字 选项 提取 和 设置 这 个 TCP 选 项 。 

窗口 规模 选项 。TCP 连 接任 何 一 端 能 够 通告 对 端的 最 大 窗口 大 小 
是 65535， 因 为 在 TCP 首 部 中 相应 的 字段 占 16 位 。 然 而 当今 因特网 
上 业已 普及 的 高 速 网 络 连 接 (45 Mbit/s 或 更 快 ， 如 RFC 1323 

| Jacobson, Braden, and Borman 1992] Prit) 或 长 延迟 路 径 (D 
星 链 路 ) 要 求 有 更 大 的 窒 口 以 获得 尽 可 能 大 的 吞吐 量 。 这 个 新 选 
项 指定 TCP 首 部 中 的 通告 窗口 必须 扩大 ( 即 左 移 ) 的 位 数 o~ 

14) ， 因 此 所 提供 的 最 大 窗口 接近 1 GB (65535x214) 。 在 一 个 

TCP 连 接 上 使 用 窗口 规模 的 前 提 是 它 的 两 个 端 系统 必须 都 支持 这 
个 选项 。 我 们 将 在 7.5 节 看 到 如 何 使 用 SO_RCVBUF 套 接 字 选项 影 
响 这 个 TCP 选 项 。 


为 提供 与 不 文 持 这 个 选项 的 较 早 实现 间 的 互 操 作 性 ， 需 应 用 如 下 
规则 。TCP 可 以 作为 主动 打开 的 部 分 内 容 随 它 的 SYN 发 送 该 选项 ， 但 
是 只 在 对 端 也 随 它 的 SYN 发 送 该 选项 的 前 提 下 ， 它 才能 扩大 目 己 窗口 
的 规模 。 类 似 地 ， 服 务 器 的 TCP 只 有 接收 到 随 客 户 的 SYN 到 达 的 该 选 
项 时 ， 才 能 发 送 该 选项 。 本 逻辑 假定 实现 忽略 它们 不 理解 的 选项 ， 如 
8000 3685060068 a ann 


。 时 间 玲 选项 。 这 个 选项 对 于 高 速 网 络 连 接 是 必要 的 ， 它 可 以 防止 
由 失 而 复 现 的 分 组 < 可 能 造成 的 数据 损坏 。 它 是 一 个 较 新 的 选 
项 ， 也 以 类 似 于 窗口 规模 选项 的 方式 协商 处 理 。 作 为 网 络 编程 人 
员 ， 我 们 无 需 考 虑 这 个 选项 。 


TCP 的 大 多 数 实 现 都 支持 这 些 常 用 选项 。 后 两 个 选项 有 时 称 
为 “RFC 1323 选 项 *， 因 为 它们 是 在 RFC 1323 |Jacobson, Braden, and 
Borman 1992] 中 说 明 的 。 有 既然 高 带宽 或 长 延迟 的 网 络 被 称 为 “长 胖 管 
道 ” (long fat pipe) ， 这 两 个 选项 也 称 为 “长 胖 管 道 选 项 ”。TCPv1 的 第 
24 章 对 这 些 选 项 有 详细 的 和 述 。 


2.6.3 ”TCP 连接 终止 
TCP 建 立 一 个 连接 需 3 个 分 节 ， 终 止 一 个 连接 则 需 4 个 分 节 。 


(1) 某 个 应 用 进程 首先 调用 close， 我 们 称 该 端 执 行 主 动 关 闭 
(active close) 。 该 端的 TCP 于 是 发 送 一 个 FIN 分 节 ， 表 示 数 据 发 送 完 
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(2) 接收 到 这 个 FIN 的 对 端 执行 被 动 关闭 (passive close) 。 这 个 
FIN 由 TCP 确 认 。 它 的 接收 也 作为 一 个 文件 结束 符 (end-of-file) 传递 
给 接收 端 应 用 进程 ( 放 在 已 排队 等 候 该 应 用 进程 接收 的 任何 其 他 数据 
之 后 ) ， 因 为 FIN 的 接收 意味 着 接收 端 应 用 进程 在 相应 连接 上 再 无 额 
外 数据 可 接收 。 


(3) 一段 时 间 后 ， 接 收 到 这 个 文件 结束 符 的 应 用 进程 将 调用 
close 关 闭 它 的 套 接 字 。 这 导致 它 的 TCP 也 发 送 一 个 FIN ° 


(4) 接收 这 个 最 终 FIN 的 原 发 送 端 TCP ( 即 执行 主动 关闭 的 那 一 
Xm) 确认 这 个 FIN。 


既然 每 个 方向 都 需要 一 个 FIN 和 一 个 ACK， 因 此 通常 需要 4 个 分 
节 。 我 们 使 用 限定 词 “ 通 常 * 是 因为 ， 某 些 情 形 下 步骤 1 的 FIN 随 数据 一 
起 发 送 ， 另 外 ， 步 骤 2 和 步骤 3 发 送 的 分 节 都 出 自 执行 被 动 关闭 那 一 
端 ， 有 可 能 被 合并 成 一 个 分 节 。 图 2-3 展 示 了 这 些 分 组 。 


(被 动 关 闭 ) 
readix [H]0 


图 2-3 TCP 连接 关闭 时 的 分 组 交换 


类 似 SYN， 一 个 FIN 也 占据 1 个 字 广 的 序列 号 空间 。 因 此 ， 每 个 
FIN 的 ACK 人 确认 号 就 是 这 个 FIN 的 序列 号 加 1 e 


TEE 273 2 3.7 [H] 从 执行 被 动 关闭 一 端 到 执行 主动 关闭 一 端 
流动 数据 是 可 能 的 。 这 称 为 半 关 闭 (half-close) ， 我 们 将 在 6.6 节 随 
shutdownERZA BEVEZIHAT ZB ° 


当 套 接 字 被 关闭 时 ， 其 所 在 端 TCP 各 自发 送 了 一 个 FIN。 我 们 在 图 
中 指出 ， 这 是 由 应 用 进程 调用 close 而 发 生 的 ， 不 过 需 认识 到 ， 当 一 
个 Unix 进 程 无 论 自愿 地 (调用 exit 或 从 main 函 数 返 回 ) 还 是 非 自愿 
地 ( 收 到 一 个 终止 本 进程 的 信号 ) 终止 时 ， 所 有 打开 的 描述 符 都 被 关 
闭 ， 这 也 导致 仍然 打开 的 任何 TCP 连 接 上 也 发 出 一 个 FIN。 

图 2-3 展 示 了 客户 执行 主动 关闭 的 情形 ， 不 过 我 们 指出 ， 无 论 是 客 
户 还 是 服务 器 ， 任 何 一 端 都 可 以 执行 主动 关闭 。 通 常情 况 是 客户 执行 
( 壁 如 值得 注意 的 HTTP/1.0) 却 由 服务 器 执 
行 主动 关闭 。 


26.4 ” TCP 状态 转换 图 


TCP 涉 及 连接 建立 和 连接 终止 的 操作 可 以 用 状态 转换 图 (state 
transition diagram) 来 说 明 ， 如 图 2-4 所 示 o 
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图 2-4 ”TCP 状态 转换 图 


TCP 为 一 个 连接 定义 了 11 种 状态 ， 并 且 TCP 规 则 规定 如 何 基于 当 
前 状态 及 在 该 状态 下 所 接收 的 分 节 从 一 个 状态 转换 到 另 一 个 状态 。 举 
例 来 说 ， 当 某 个 应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，TCP 将 
发 送 一 个 SYN， 且 新 的 状态 是 SYN_SENT。 如 果 这 个 TCP 接 着 接收 到 
一 个 各 ACK 的 SYN， 它 将 发 送 一 个 ACK， 且 新 的 状态 是 
ESTABLISHED。 这 个 最 终 状 态 是 绝 大 多 数 数 据 传 送 发 生 的 状态 。 


目 ESTABLISHED 状 态 引出 的 两 个 箭头 处 理 连 接 的 终止 。 如 果 某 
个 应 用 进程 在 接收 到 一 个 FIN 之 前 调用 close (主动 关闭 ) ， 那 就 转 
换 到 FIN_WAIT 1 状态 。 但 如 果 某 个 应 用 进程 在 ESTABLISHED 状 态 期 
间接 收 到 一 个 FIN (被 动 关 闭 ) ， 那 就 转换 到 CLOSE_WAIT 状 态 。 


我 们 用 粗 实 线 表示 通常 的 客户 状态 转换 ， 用 粗 虚线 表示 通常 的 服 
务 咒 状态 转换 。 几 中 还 注 明 存在 两 个 我 们 未 曾 讨 论 的 转换 : 一 个 为 同 
时 打开 (simultaneous open) ， 发 生 在 两 端 几乎 同时 发 送 SYN 并 且 这 两 
个 SYN 在 网 络 中 交错 的 情形 下 ， 另 一 个 为 同时 关闭 (simultaneous 
close) ， 发 生 在 两 端 几 乎 同时 发 送 FIN 的 情形 下 。TCPv1i 的 第 18 章 中 有 
这 两 种 情况 的 例子 和 讨论 ， 它 们 是 可 能 发 生 的 ， 不 过 非常 罕见。 


Ss 
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展示 状态 转换 图 的 原因 之 一 是 给 出 11 种 TCP 状 态 的 名 称 。 这 些 状 
态 可 使 用 netstat 显 示 ， 它 是 一 个 在 调试 客户 /服务 顺应 用 时 很 有 用 的 
工具 。 我 们 将 在 第 5 草 中 使 用 netstat 去 监视 状态 的 变化 。 


2.6.5 ”观察 分 组 


图 2-5 展 示 一 个 完整 的 TCP 连 接 所 发 生 的 实际 分 组 交换 情况 ， 包 括 
an UES 送 和 连接 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历 
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图 2-5” TCP 连接 的 分 组 交换 


本 例 中 的 客户 通告 一 个 值 为 536 的 MSS (表明 该 客户 只 实现 了 最 小 
重组 缓冲 区 大 小 ) ， 服 务 器 通告 一 个 值 为 1460 的 MSS (以 太 网 上 IPv4 
的 典型 值 ) 。 不 同方 向 上 MSS 值 不 相同 不 成 问题 (见习 题 2.5) 。 


一 旦 建立 一 个 连接 ， 客 户 就 构造 一 个 请 求 并 发 送 给 服务 器 。 这 里 
我 们 假设 该 请 求 适合 于 单个 TCP 分 节 ( 即 请 求 大 小 小 于 服务 器 通告 的 
值 为 1460 字 节 的 MSS) 。 服 务 器 处 理 该 请 求 并 发 送 一 个 应 答 ， 我 们 假 
设 该 应 答 也 适合 于 单个 分 节 (本 例 即 小 于 536 字 节 ) 。 图 中 使 用 粗 箭头 
表示 这 两 个 数据 分 节 。 注 意 ， 服 务 器 对 客户 请 求 的 确认 是 伴随 其 应 答 
发 送 的 。 这 种 做 法 称 为 撒 带 (piggybacking) ， 它 通常 在 服务 器 处 理 请 
求 并 产生 应 答 的 时 间 少 于 200 ms 时 发 生 。 如 果 服 务 器 耗 用 更 长 时 间 ， 
璧 如 说 1s， 那 么 我 们 将 看 到 先是 确认 后 是 应 答 。 (TCP 数 据 流 机 理 在 
TCPv1 的 第 19 章 和 第 20 章 中 详细 叙述 。) 


图 中 随后 展示 的 是 终止 连接 的 4 个 分 节 。 注 意 ， 执 行 主动 关闭 的 那 
一 端 (本 例子 中 为 客户 ) 进入 我 们 将 在 下 一 节 中 讨论 的 TIME_WAIT 状 


AX o 


图 2-5 中 值得 注意 的 是 ， 如 有 果 该 连接 的 整个 目的 仅仅 是 发 送 一 个 单 
分 节 的 请 求 和 接收 一 个 单 分 节 的 应 管 ， 那 么 使 用 TCP 有 8 个 分 季 的 开 
销 。 如 果 改 用 UDP， 那 么 只 需 交 换 两 个 分 组 ， 一 个 承载 请 求 ， 一 个 承 
载 应 答 。 然 而 从 TCP 切 换 到 UDP 将 坊 失 TCP 提 供给 应 用 进程 的 全 部 可 
SETE, iE) SEARS A ASEAN eH (TCP) 转移 到 UDP 应 用 
进程 。TCP 提 供 的 另 一 个 重要 特性 即 拥塞 控制 也 必须 由 UDP 应 用 进程 
来 处 理 。 尽 管 如 此 ， 我 们 仍然 需要 知道 许多 网 络 应 用 是 使 用 UDP 构建 
的 ， 因 为 它们 需要 交换 的 数据 量 较 少 ， 而 UDP 避免 了 TCP 连 接 建 立 和 
终止 所 需 的 开销 。 


2.7 TIME _ WAIT 状态 


室 无 疑问 ，TCP 中 有 关 网 络 编程 最 不 容易 理解 的 是 它 的 
TIME_WAIT 状 态 。 在 图 2-4 中 我 们 看 到 执行 主动 天 闭 的 那 端 经 历 了 这 
个 状态 。 该 端点 集 留 在 这 个 状态 的 持续 时 间 是 最 长 分 广 生 命 期 

(maximum segment lifetime, MSL) 的 两 倍 ， 有 时候 称 之 为 2MSL ° 


任何 TCP 实 现 都 必须 为 MSL 选 择 一 个 值 。RFC 1122 [Braden 

1989] 的 建议 值 是 2 分 钟 ， 不 过 源 自 Berkeley 的 实现 传统 上 改 用 30 秒 这 
个 值 。 这 意味 着 TIME_WAIT 状 态 的 持续 时 间 在 1 分 钟 到 4 分 钟 之 间 。 
MSL 是 任何 卫 数 据 报 能 够 在 因特网 中 存活 的 最 长 时 间 。 我 们 知道 这 个 
时 间 是 有 限 的 ， 因 为 每 个 数据 报 含 有 一 个 称 为 跳 限 Chop limit) 的 8 位 
字段 ( 见 图 A-1 中 IPv4 的 TIL 字段 和 图 A-2 中 IPv6 的 跳 限 字段 )， 它 的 
最 大 值 为 255。 尽 管 这 是 一 个 跳 数 限制 而 不 是 真正 的 时 间 限 制 ， 我 们 仍 
OR 
MSL 秒 。 


分 组 在 网 络 中 “六 途 ” 通 常 是 路 由 异常 的 结果 。 某 个 路 由 器 月 演 或 
某 两 个 路 由 器 之 间 的 某 个 链 路 断 开 时 ， 路 由 协议 需 花 数秒 钟 到 数 分 钟 
的 时 间 才 能 稳定 并 找 出 男 一 条 通路 。 在 这 段 时 间 内 有 可 能 发 生路 由 循 
Th (路 由 器 A 把 分 组 发 送 给 路 由 器 B， 而 B 再 把 它们 发 送 回 A) ， 我 们 
天 心 的 分 组 可 能 束 此 陶 入 这 样 的 循环 。 假 设 迷 途 的 分 组 是 一 个 TCP 分 
广 ， 在 它 迷 途 期 间 ， 发 送 绒 TCP 超 时 并 重 传 该 分 组 ， 而 重 传 的 分 组 却 
通过 某 条 候选 路 径 到 达 最 终 目 的 地 。 然 而 不 久 后 ( 自 迷 途 的 分 组 开始 
其 旅程 起 最 多 MSL 秒 以 内 ) 路 由 循环 修复 ， 早 先 迷 失 在 这 个 循环 中 的 
分 组 最 终 也 被 送 到 目的 地 。 这 个 原来 的 分 组 称 为 迷途 的 重复 分 组 (lost 
duplicate) 或 漫游 的 重复 分 组 (wandering duplicate) 。TCP 必 须 正 确 
处 理 这 些 重复 的 分 组 。 


TIME_WAIT 状 态 有 两 个 存在 的 理由 : 
(1) 可 靠 地 实现 TCP 全 双 工 连接 的 终止 ; 
(2) 允许 老 的 重复 分 方 在 网 络 中 消逝 。 


第 一 个 理由 可 以 通过 查看 图 2-5 并 假设 最 终 的 ACK 丢 失 了 来 解释 。 
服务 器 将 重新 发 送 它 的 最 终 那个 FIN， 因 此 客户 必须 维护 状态 信息 ， 
以 允许 它 重新 发 送 最 终 那个 ACK 。 要 是 客户 不 维护 状态 信息 ， 它 将 响 
应 以 一 个 RST (另外 一 种 类 型 的 TCP 分 节 ) ， 该 分 节 将 被 服务 器 解释 
成 一 个 错误 。 如 果 TCP 打 算 执 行 所 有 必要 的 工作 以 彻底 终止 某 个 连接 
上 两 个 方向 的 数据 流 〈 即 全 双 工 关闭 ) ， 那 么 它 必须 正确 处 理 连 接 终 
止 序列 4 个 分 节 中 任何 一 个 分 节 丢 失 的 情况 。 本 例子 也 说 明了 为 什么 执 
行 主动 关闭 的 那 一 端 是 处 于 TIME_WAIT 状 态 的 那 一 端 : 因为 可 能 不 得 
不 重 传 最 终 那个 ACK 的 就 是 那 一 端 。 


为 理解 存在 TIME_WAIT 状 态 的 第 二 个 理由 ， 我 们 假设 在 
12.106.32.254 的 1500 端 口 和 206.168.112.219 的 21 端 口 之 间 有 一 个 TCP 连 
接 。 我 们 关闭 这 个 连接 ， 过 一 段 时 间 后 在 相同 的 IP 地 址 和 端口 之 间 建 
立 男 一 个 连接 。 后 一 个 连接 称 为 前 一 个 连接 的 化 身 (incarnation) ， 
为 它们 的 IP 地 址 和 端口 号 都 相同 。TCP 必 须 防止 来 自 某 个 连接 的 老 的 
重复 分 组 在 该 连接 已 终止 后 再 现 ， 从 而 被 误解 成 属于 同一 连接 的 某 个 
新 的 化 喘 。 为 做 到 这 一 点 ，TCP 将 不 给 处 于 TIME_WAIT 状 态 的 连接 发 
起 新 的 化 号 。 既 然 TIME_WAIT 状 态 的 持续 时 间 是 MSL 的 2 倍 ， 这 就 足 
以 让 某 个 方向 上 的 分 组 最 多 存活 MSL 秒 即 被 丢弃 ， 男 一 个 方向 上 的 应 
答 最 多 存活 MSL 秒 也 被 丢弃 。 通 过 实施 这 个 规则 ， 我 们 就 能 保证 每 成 
功 建立 一 个 TCP 连 接 时 ， 来 自 该 连接 先前 化 身 的 老 的 重复 分 组 都 已 在 
网 络 中 消逝 了 。 


这 个 规则 存在 一 个 例外 : 如 果 到 达 的 SYN 的 序列 号 大 于 前 一 化 身 
的 结束 序列 号 ， 源 自 Berkeley 的 实现 将 给 当前 处 于 TIME_WAIT 状 态 的 
连接 启动 新 的 化 身 。TCPv2 第 958~959 页 对 这 种 情况 有 详细 的 叙述 。 
它 要 求 服 务 器 执行 主动 关闭 ， 因 为 接收 下 一 个 SYN 的 那 一 端 必须 处 于 
TIME_WAIT 状 态 。rsh 命 令 具 备 这 种 能 力 。RFC 1185 [Jacobson, 
Braden, and Zhang 1990] 讲述 了 有 关 这 种 情形 的 一 些 陷阱 。 


2.8 SCTP 关 联 的 建立 和 终止 


与 TCP 一 样 ，SCTP 也 是 面 问 连接 的 ， 因 而 也 有 关联 的 建立 与 终止 
的 握手 过 程 。 不 过 SCTP 的 握手 过 程 不 同 于 TCP， 我 们 在 此 加 以 说 明 。 


2.8.1 四 路 握手 


建立 一 个 SCTP 关 联 的 时 候 会 发 生 下 述 情 形 (类 似 于 TCP) ° 


(D 服务 器 必须 准备 好 接受 外 来 的 关联 。 这 通常 通过 调用 
socket、bind 和 1Listen 这 3 个 函数 来 完成 ， 称 为 被 动 打 开 。 


(2) 客户 通过 调用 connect 或 者 发 送 一 个 隐 式 打开 该 关联 的 消 
息 进行 主动 打开 。 这 使 得 客户 SCTP 发 送 一 个 INIT 消 息 (初始 化 ) ， 该 
消息 告诉 服务 器 客户 的 IP 地 址 清单 、 初 始 序 列 号 、 用 于 标识 本 关联 中 
， E ` 客户 请 求 的 外 出 流 的 数目 以 及 客户 能 够 支持 的 
if 3 Z 5 


(3) 服务 器 以 一 个 INIT ACK 消 息 确 认 客 户 的 INIT 消 息 ， 其 中 含 
有 服务 器 的 IP 地 址 清单 、 初 始 序 列 号 、 起 始 标 记 、 服 务 器 请 求 的 外 出 
流 的 数目 、 服 务 器 能 够 支持 的 外 来 流 的 数目 以 及 一 个 状态 cookie。 状 
态 cookie 包 含 服务 器 用 于 确信 本 关联 有 效 所 需 的 所 有 状态 ， 它 是 数字 
化 签名 过 的 ， 以 确保 其 有 效 性 。 


(4) 客户 以 一 个 COOKIE ECHO 消 息 回 射 服务 器 的 状态 cookie 。 
poe ECHO 外 ， 该 消息 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数 
E o 


(5) 服务 器 以 一 个 COOKIE ACK 消 息 确 认 客 户 回 射 的 cookie 是 正 
本 关联 于 是 建立 。 该 消息 也 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 
数据 o 


以 上 交换 过 程 至 少 需要 4 个 分 组 ， 因 此 称 之 为 SCTP 的 四 路 握手 
(four-way handshake) 。 图 2-6 展 示 了 这 4 个 分 节 。 
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图 2-6 ”SCTP 的 四 路 握手 


SCTP 的 四 路 握手 在 很 多 方面 类 似 于 TCP 的 三 路 握手 ， 差 别 主 要 在 
于 作为 SCTP 整 体 一 部 分 的 cookie 的 生成 。INIT ( 随 其 众多 参数 一 道 ) 
承载 一 个 验证 标记 Ta 和 一 个 初始 序列 号 J。 在 关联 的 有 效 期 内 ， 验 证 标 
记 Ta 必 须 在 对 端 发 送 的 每 个 分 组 中 出 现 。 初 始 序 列 号 J 用 作 承 载 用 户 数 
据 的 DATA 块 的 起 始 序列 号 。 对 端 也 在 INIT ACK 中 承载 一 个 验证 标记 
Tz， 在 关联 的 有 效 期 内 ， 验 证 标记 Tz 也 必须 在 其 发 送 的 每 个 分 组 中 出 
现 。 除 了 验证 标记 Tz 和 初始 序列 号 K 外 ，INIT 的 接收 端 还 在 作为 啊 应 
的 INIT ACK 中 提供 一 个 cookie C。 该 cookie 包 含 设置 本 SCTP 关 联 所 需 
的 所 有 状态 ， 这 样 服务 器 的 SCTP 栈 就 不 必 保 存 所 关联 客户 的 有 关 信 
息 。SCTP 关 联 设置 的 细节 参见 [Stewart and Xie 2001] 的 第 4 章 。 

四 路 握手 过 程 结束 时 ， 两 端 各 自选 择 一 个 主 目的 地 址 (primary 
destination address) 。 当 不 存在 网 络 故 障 时 ， 主 目的 地 址 将 用 作 数 据 
要 发 送 到 的 默认 目的 地 。 


在 SCTP 中 使 用 四 路 握手 是 为 了 避免 一 种 将 在 4.5 节 讨论 的 拒绝 服 


务 攻 


SCTP 使 用 cookie 的 四 路 握手 定形 了 一 种 防护 这 种 攻击 的 方法 。 
TCP 的 许多 实现 也 使 用 类 似 的 方法 。 两 者 的 主要 差别 在 于 ，TCP 中 
cookie 状 态 必 须 编码 到 只 有 32 位 长 的 初始 序列 号 中 。SCTP 为 此 提供 了 
一 个 任意 长 度 的 字段 ， 并 且 要 求实 施 基于 加 密 的 安全 性 以 防护 攻击 。 


2.8.2 ”关联 终止 


SCTP 不 像 TCP 那 样 介 许 “ 半 关闭 ”的 关联 。 当 一 端 关闭 某 个 关联 
时 ， 另 一 端 必须 停止 发 送 新 的 数据 。 关 联 关 闭 请 求 的 接收 端 发 送 完 已 
(如 果 有 的 话 ) 后 ， 完 成 关联 的 关闭 。 图 2-7 展 示 了 这 一 
ACTA TE? 
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图 2-7 SCTP 关 联 关 闭 时 的 分 组 交换 


SCTP 没 有 类 似 于 TCP 的 TIME_WAIT 状 态 ， 因 为 SCTP 使 用 了 验证 
标记 。 所 有 后 续 块 都 在 捆绑 它们 的 SCTP 分 组 的 公共 首部 标记 了 初始 的 
INIT 块 和 INIT ACK 块 中 作为 起 始 标 记 交 换 的 验证 标记 ;由 来 自 旧 连 接 
的 块 通过 所 在 SCTP 分 组 的 公共 首部 间接 携带 的 验证 标记 对 于 新 连接 来 
说 是 不 正确 的 。 因 此 ，SCTP 通 过 放置 验证 标记 值 就 避免 了 了 TCP 在 
TIME_WAIT 状 态 保持 整个 连接 的 做 法 。 


2.8.3 SCTP 状 态 转换 图 


SCTP 涉 及 关联 建立 和 关联 终止 的 操作 可 以 用 状态 转换 图 (state 
transition diagram) 来 说 明 ， 如 图 2-8 所 示 Ze 
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图 2-8 ”SCTP 状 态 转换 图 


与 图 2-4 一 样 ， 本 状态 机 中 从 一 个 状态 到 另 一 个 状态 的 转换 由 
SCTP 规 则 基于 当前 状态 及 在 该 状态 下 所 接收 的 块 规定 。 举 例 来 说 ， 当 
某 个 应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，SCTP 将 发 送 一 个 
INIT， 且 新 的 状态 是 COOKIE-WAIT。 如 果 这 个 SCTP 接 着 接收 到 一 个 
INIT ACK， 它 将 发 送 一 个 COOKIE ECHO， 上 且 新 的 状态 是 COOKIE- 
ECHOED。 如 果 该 SCTP 随 后 接收 到 一 个 COOKIE ACK， 它 将 转换 成 
ESTABLISHED 状 态 。 这 个 最 终 状 态 是 绝 大 多 数 数据 传送 发 后 点 的 状 
个， 由 COOKIE ECHO 块 或 COOKIE ACK 块 所 在 消 
RAD o 


48 
从 ESTABLISHED 状 态 引出 的 两 个 箭头 处 理 关 联 的 终止 。 如 果 某 
个 应 用 进程 在 接收 到 一 个 SHUTDOWN 之 前 调用 close (主动 关 
闭 ) ， 那 就 转换 到 SHUTDOWN-PENDING 状 态 。 否 则 ， 如 果 某 个 应 用 
进程 在 ESTABLISHED 状 态 期 间接 收 到 一 个 SHUTDOWN (WIK 
BD ， 那 就 转换 到 SHUTDOWN-RECEIVED 状 态 。 


2.8.4 ”观察 分 组 


图 2-9 展 示 一 个 作为 样 例 的 SCTP 关 联 所 发 生 的 实际 分 组 交换 情 
况 ， 包 括 关 联 建立 、 数 据 传送 和 关联 终止 3 个 阶段 。 图 中 还 展示 了 每 个 
端点 所 历经 的 SCTP 状 态 。 
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图 2-9 SCTP 关 联 中 的 分 组 交换 


本 例 中 ， 客 户 在 COOKIE ECHO 块 所 在 分 组 中 撒 带 了 它 的 第 一 个 
DATA 块 ， 服 务 器 则 在 作为 应 答 的 COOKIE ACK 块 所 在 分 组 中 撒 带 了 
数据 。 一 般 而 言 ， 当 网 络 应 用 采用 一 到 多 接口 式样 时 (我 们 将 在 9.2 节 
中 讨论 一 到 一 和 一 到 多 这 两 种 接口 式样 ) , COOKIE ECHO S fj 7 
一 个 或 多 个 DATA 块 。 

SCTP 分 组 中 信息 的 单位 称 为 块 (chunk) ° HEKMAN, GE 
一 个 块 类 型 、 若 干 个 块 标 记 和 一 个 块 长 度 。 这 样 做 方便 了 多 个 块 的 绑 
缚 ， 只 要 把 它们 简单 地 组 合 到 一 个 SCTP 外 出 消息 中 ( [Stewart and 
Xie 2001] 的 第 5 章 给 出 了 块 捆 绑 和 常规 数据 传输 过 程 的 细节 ) 。 


2.8.5 SCTP 


SCTP 使 用 参数 和 块 方便 增设 可 选 特 性 。 新 的 特性 通过 添加 这 两 个 
条 目 之 一 加 以 定义 ， 并 人 允许 通常 的 SCTP 处 理 规则 汇报 未 知 的 参数 和 未 
知 的 块 。 参 数 类 型 字段 和 块 类 型 字段 的 高 两 位 指明 SCTP 接 收 端 该 如 何 
处 置 未 知 的 参数 或 未 知 的 块 ( [Stewart and Xie 2001] 的 3.1 节 给 出 了 
更 多 的 细节 ) 。 


当前 如 下 两 个 对 SCTP 的 扩展 正在 开发 中 。 


(1) 动态 地 址 扩展 ， 人 允许 协作 的 SCTP 端 点 从 已 有 的 某 个 关联 中 
动态 增删 IP 地 址 。 


(2) 不 完全 可 靠 性 扩展 ， 人 允许 协作 的 SCTP 端 点 在 应 用 进程 的 指 
导 下 限制 数据 的 重 传 。 当 一 个 消息 变 得 过 于 陈旧 而 无 须发 送 时 (按照 
应 用 进程 的 指导 ) ， 该 消息 将 被 跳 过 而 不 再 发 送 到 对 端 。 这 意味 着 不 
征 所 有 数据 都 确保 到 达 关 联 的 另 一 端 。 


2.9 Ml 


任何 时 候 ， 多 个 进程 可 能 同时 使 用 TCP、UDP 和 SCTP 这 3 种 传输 
层 协 议 中 的 任何 一 种 。 这 3 种 协议 都 使 用 16 位 整数 的 端口 号 (port 
number) 来 区 分 这 些 进 程 。 


当 一 个 客户 想 要 跟 一 个 服务 器 联系 时 ， 它 必须 标识 想 要 与 之 通信 
的 这 个 服务 器 。TCP、UDP 和 SCTP 定 义 了 一 组 众所周知 的 端口 (well- 
known port) ， 用 于 标识 众所周知 的 服务 。 举 例 来 说 ， 支 持 FTP 的 任何 
TCP/IP 实 现 都 把 21 这 个 众所周知 的 端口 分 配给 FTP 服 务 器 。 分 配给 简 
化 文件 传送 协议 (Trivial File Trqnsfer Protocol，TFTP) 的 是 UDP 端口 
号 69。 


男 一 方面 ， 客 户 通常 使 用 短期 存活 的 临时 端口 (ephemeral 
port) 。 这 些 端 口号 通常 由 传输 层 协议 目 动 赋予 客户 。 客 户 通 常 不 天 
心 其 临时 端口 的 具体 值 ， 而 只 需 确 信 该 端口 在 所 在 主机 中 是 唯一 的 就 
行 。 传 输 协 议 的 代码 确保 这 种 唯一 性 。 


IANA (the Internet Assigned Numbers Authority， 因 特 网 已 分 配 数 
值 权 威 机 构 ， 维护 着 一 个 端口 号 分 配 状况 的 清单 。 该 清单 一 度 作 为 
RFC 多 次 发 布 ，RFC 1700 [Reynolds and Postel 1994| 是 这 个 系列 的 最 
后 一 个 。RFC 3232 [Reynolds 2002]. 给 出 了 替代 RFC 1700 的 在 线 数据 
库 的 位 置 : http://www.iana.org/。 端口 号 被 划分 成 以 下 3 上 段 。 


(1) 众所周知 的 端口 为 0 一 1023。 这 些 端口 由 IANA 分 配 和 控 
制 。 可 能 的 话 ， 相 同 端口 号 就 分 配给 TCP、UDP 和 SCTP 的 同一 给 定 服 
务 。 例 如 ， 不 论 TCP 还 是 UDP 端口 号 80 都 被 赋予 web 服务 器 ， 尽 管 它 
目前 的 所 有 实现 都 单纯 使 用 TCP © 


端口 号 80 分 配 时 SCTP 尚 不 存在 。 新 的 端口 分 配 将 针对 这 3 种 协议 


HT, RFC 2960 则 声明 所 有 现 有 的 TCP 端 口号 对 于 使 用 SCTP 的 同一 服 
务 同样 有 效 。 


(2) 已 登记 的 端口 (registered port) 为 1024~-49151。 这 些 端 口 
不 受 IANA 控制 ， 不 过 由 IANA 登记 并 提供 它们 的 使 用 情况 清单 ， 以 方 
便 整 个 群体 。 可 能 的 话 ， 相 同 端口 号 也 分 配给 TCP 和 UDP 的 同一 给 定 
服务 。 例 如 ，6000~6063 分 配给 这 两 种 协议 的 X Window SS ax, RE 
它 的 所 有 实现 当前 单纯 使 用 TCP。49151 这 个 上 限 的 引入 是 为 了 给 临时 
端口 留 出 范围 ， 而 RFC 1700 [Reynolds and Postel 1994] 所 列 的 上 限 
为 65535。 


(3) 49152~-65535 是 动态 的 (dynamic) 或 私 用 的 (private) Jm 
口 。IANA 不 管 这 些 端口 。 它 们 就 是 我 们 所 称 的 临时 端口 。 (49152 这 
个 魔 数 是 65536 的 四 分 之 三 。) 


图 2-10 展 示 了 端口 号 的 划分 情况 和 稼 见 的 分 配 情况 。 
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图 2-10 ”端口 号 的 分 配 


我 们 要 注意 图 2-10 中 以 下 几 点 。 


。 Unix 系 统 有 保留 端口 (reserved port) 的 概念 ， 指 的 是 小 于 1024 的 
任何 端口 。 这 些 端口 只 能 赋予 特权 用 户 进程 的 套 接 字 。 所 有 IANA 
众所周知 的 端口 都 是 保留 端口 ， 分 配 使 用 这 些 端口 的 服务 器 〈 例 
如 FTP 服 务 器 ) 必须 以 超级 用 户 特权 启动 。 

。 由 于 历史 原因 ， 源 自 Berkeley 的 实现 (从 4.3BSD 开 始 ) 曾 在 1024 
一 5000 范 围 内 分 配 临 时 端口 。 这 在 20 世 纪 80 年 代 初 期 是 可 行 的 ， 
但 是 如 今 很 容易 就 找到 一 个 在 任何 给 定时 间 内 同时 支持 多 于 3977 
个 连接 的 主机 。 于 是 许多 较 新 的 系统 从 另外 的 范围 分 配 临 时 端口 
以 提供 更 多 的 临时 端口 ， 它 们 或 者 使 用 由 IANA 定义 的 临时 端口 范 
围 ， 或 者 使 用 一 个 更 大 的 其 他 范围 (如 图 2-10 所 示 的 Solaris) 。 


由 于 这 个 原因 ， 许 多 较 早 的 系统 实现 的 临时 端口 范围 的 上 限 为 5 
000。5 000 这 个 上 限 后 来 发 现 是 一 个 排版 错误 [Borman | ， 本 应 该 是 
50 000 。 


。 有 少数 客户 (而 不 是 服务 器 ) 需要 一 个 保留 端口 用 于 客户 /服务 器 
的 认证 : rlogin 和 rsh 客 户 就 是 常见 的 例子 。 这 些 客户 调用 库 画 
数 rresvport 创 建 一 个 TCP 套 接 字 ， 并 赋予 它 一 个 在 513 一 1023 
苑 围 内 未 使 用 的 端口 。 该 函数 通常 先 尝 试 绑 定 端口 1023， 若 失败 
则 尝试 1022， 依 次 类 推 ， 直 到 在 端口 513 上 亦 或 成 功 ， 亦 或 失败 。 


注意 :BSD 的 保留 端口 和 rresvport 画 数 都 跟 IANA 众 所 周知 端 
口 的 后 半 部 分 重 又 。 这 是 因为 I ANA 众 所 周知 端口 早先 的 上 限 为 255。 
1992 年 的 RFC 1340 (早先 的 一 个 "Assigned Numbers"RFC) 开始 在 256 
一 1023 之 间 分 配 众所周知 的 端口 。1990 年 的 RFC 1060 (更 早先 的 一 
个 "Assigned Numbers"RFC) 称 256~~1023 之 间 的 端口 为 Unix 标 准 服务 

(Unix Standard Services) 。20 世 纪 80 年 代 有 不 少 源 目 Berkeley 的 服务 
器 在 512 以 后 挑选 它们 的 众所周知 的 端口 (S P256—5112UT Z3 4) 
rresvport 郴 数 选择 从 1023 开 始 往 下 寻找 ， 直 至 513。 


ERFA 


一 个 TCP 连 接 的 套 接 字 对 (socket pair) 是 一 个 定义 该 连接 的 两 个 
端点 的 四 元 组 ， 本 地 IP 地 址 、 本 地 TCP 端 口号 、 外 地 IP 地 址 、 外 地 TCP 
端口 号 。 套 接 字 对 唯一 标识 一 个 网 络 上 的 每 个 TCP 连 接 。 就 SCTP 而 
言 ， 一 个 关联 由 一 组 本 地 IP 地 址 、 一 个 本 地 端口 、 一 组 外 地 IP 地 址 、 
一 个 外 地 端口 标识 。 在 两 个 端点 均 非 多 和 窒 这 一 最 简单 的 情形 下 ，SCTP 
与 TCP 所 用 的 四 元 组 套 接 字 对 一 致 。 然 而 在 某 个 关联 的 任何 一 个 端点 
为 多 宿 的 情形 下 ， 同 一 个 关联 可 能 需要 多 个 四 元 组 标识 (这 些 四 元 组 
的 IP 地 址 各 不 相同 ， 但 端口 号 是 一 样 的 ) e 


标识 每 个 端点 的 两 个 值 (了 了 地址 和 端口 号 ) 通常 称 为 一 个 套 接 


我 们 可 以 把 套 接 字 对 的 概念 扩展 到 UDP， 即 使 UDP 十 无 连接 的 。 
当 讲 解 套 接 字 函数 (bind ` 


connect ` getpeername=) 上 时， 我 们 将 指明 它们 在 指定 套 接 字 对 
中 的 哪些 值 。 举 例 来 说 ，bind 画 数 要 求 应 用 程序 给 TCP、UDP 或 
SCTP 套 接 字 指定 本 地 了 P 地 址 和 本 地 端口 号 。 


2.10 TCPMOS SHAMS A 


并 发 服务 器 中 主 服务 器 循环 通过 派生 一 个 子 进 程 来 处 理 每 个 新 的 
连接 。 如 果 一 个 子 进程 继续 使 用 服务 器 众所周知 的 端口 来 服务 一 个 长 
时 间 的 请 求 ， 那 将 发 生 什 么 ? 让 我 们 来 看 一 个 典型 的 序列 。 首 先 ， 在 
主机 freebsd 上 启动 服务 器 ， 该 主机 是 多 宿 的 ， 其 由 地 址 为 
12.106.32.254 和 192.168.42.1。 服务 器 在 它 的 众所周知 的 端口 (本 例 为 
21) 上 执行 被 动 打开 ， 从 而 开始 等 待 客户 的 请 求 ， 如 图 2-11 所 示 。 


12.106.32.254 
192.168 .42..1 


图 2-11 TCP 服 务 器 在 端口 21 上 执行 被 动 打 


我 们 使 用 记号 {*:21，*:*} 指 出 服务 右 的 套 接 字 对 。 服 务 右 在 
任意 本 地 接口 (第 一 个 星 号 ) 的 端口 21 上 等 待 连接 请 求 。 外 地 了 PP 地 址 
和 外 地 端口 都 没有 指定 ， 我 们 用 “* , *” 来 表示 。 我 们 称 它 为 监听 套 搂 
(listening socket) ° 


我 们 用 冒号 来 分 割 IP 地 址 和 端口 号 ， 因 为 这 是 HTTP 的 用 法 ， 其 他 
地 方 也 常见 。netstat 程 序 使 用 点 号 来 分 割 IP 地 址 和 端口 号 ， 不 过 如 
此 表示 有 时 候 会 让 人 混淆 ， 因 为 点 号 既 用 于 域名 (如 
freebsd.unpbook.com.21) ， 也 用 于 IPv4 的 点 分 十 进 制 数 记 法 

(如 12.106.32.254.21) 。 


这 里 指定 本 地 IP 地 址 的 星 号 称 为 通 配 (wildcard) 符 。 如 果 运 行 服 
务 器 的 主机 是 多 宿 的 GAG) ， 服 务 器 可 以 指定 它 只 接受 到 达 某 个 


特定 本 地 接口 的 外 来 连接 。 这 里 要 么 选 一 个 接口 要 么 选任 意 接 口 。 服 
务 器 不 能 指定 一 个 包含 多 个 地 址 的 清单 。 通 配 的 本 地 地 址 表示 “ 任 

意 ” 这 个 选择 。 在 图 1-9 中 ， 通 配 地 址 通过 在 调用 bind 之 前 把 套 接 字 地 
址 结构 中 的 卫 地 址 字段 设置 成 INADDR_ANY 来 指定 。 


稍 后 在 IP 地 址 为 206.168.112.219 的 主机 上 启动 第 一 个 客户 ， 它 对 
服务 器 的 IP 地 址 之 一 12.106.32.254 执 行 主动 打开 。 我 们 假设 本 例 中 客 
户主 机 的 TCP 为 此 选择 的 临时 端口 为 1500， 如 图 2-12 所 示 。 图 中 在 该 
客户 的 下 方 标 出 了 它 的 套 接 字 对 。 


206.169.112.219 


{206.168.112.219:1500,, 
12.106.32.254:21) 


图 2-12 ”客户 对 服务 器 的 连接 请 求 
当 服 务 右 接收 并 接受 这 个 客户 的 连接 时 ， 它 fork 一 个 目 身 的 副 


本 ， 让 子 进 程 来 处 理 该 客户 的 请 求 ， 如 图 2-13 所 示 。 (我 们 将 在 4.7 节 
中 讲解 fork 画 数 。) 


12.106.32.254 


206.168.112.215 192.168.42.1 
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12.10858.32.2541:21, _ 


图 2-13 ”并 发 服务 器 让 子 进 程 处 理 客户 


至 此 ， 我 们 必须 在 服务 器 主机 上 区 分 监听 套 接 字 和 已 连接 套 接 字 
(connected socket) 。 注 意 已 连接 套 接 字 使 用 与 监听 套 接 字 相同 的 本 


地 端口 (21) 。 还 要 注意 在 多 窒 服 务 器 主机 上 ， 连 接 一 旦 建立 ,已 连 
接 套 接 字 的 本 地 地 址 (12.106.32.254) 随即 填 入 。 


下 一 步 我 们 假设 在 客户 主机 上 男 有 一 个 客户 请 求 连接 到 同一 个 服 
务 器 。 客 户主 机 的 TCP 为 这 个 新 客户 的 套 接 字 分 配 一 个 未 使 用 的 临时 
端口 ， 璧 如 说 1501， 如 图 2-14 所 示 。 服务 器 上 这 两 个 连接 是 有 区 别 
Hy: 第 一 个 连接 的 套 接 字 对 和 第 二 个 连接 的 套 接 字 对 不 一 样 ， 因 为 客 
户 的 TCP 给 第 二 个 连接 选择 了 一 个 未 使 用 的 端口 (1501) ° 
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图 2-14 ”第 二 个 客户 与 同一 个 服务 器 的 连接 


通过 本 例 应 注意 ，TCP 无 法 仅仅 通过 查看 目的 端口 号 来 分 离 外 来 
的 分 节 到 不 同 的 端点 。 它 必须 查看 套 接 字 对 的 所 有 4 个 元 素 才 能 确定 由 
哪个 端点 接收 某 个 到 达 的 分 节 。 图 2-14 中 对 于 同一 个 本 地 端口 (21) 
存在 3 个 套 接 字 。 如 果 一 个 分 方 来 自 206.168.112.219 端 口 1500， 日 的 地 
为 12.106.32.254 端 口 21， 它 就 被 递送 给 第 一 个 子 进 程 。 如 果 一 个 分 克 
He A 206.168.112.219 1501, HHBJHE7J12.106.32.254*8 121, ERA 
TRIB ZA BSR 9 PUE BS O AQT EET CP Ap T Bb IK ZA 
拥有 监听 套 接 字 的 最 初 那 个 服务 器 〈 父 进程 ) 。 


2.11 缓冲 区 大 小 及 限制 


下 面 我 们 将 介绍 一 些 影响 IP 数 据 报 大 小 的 限制 。 我 们 首先 介绍 这 


些 限 制 ， 然 后 惑 它 们 如 何 影 响应 用 进程 能 够 传送 的 数据 进行 综合 分 
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IPv4 数 据 报 的 最 大 大 小 是 65 5357), EATSIPvABI BD o eA AU 
图 A-1 所 示 其 总 长 度 字 段 占 据 16 位 。 

IPv6 数 据 报 的 最 大 大 小 是 65 575 字 节 ， 包 括 40 字 节 的 IPv6 首 部 。 这 
是 因为 如 图 A-2 所 示 其 净 集 长 度 字 段 占据 16 位 。 注 意 ，IPV6 的 净 丛 
长 度 字 段 不 包括 IPv6 首 部 ， 而 IPv4 的 总 长 度 字段 包括 IPv4 首 部 。 
IPV6 有 一 个 特大 净 人 入 (jumbo payload) 3X, "EE m KEFE 
扩展 到 32 位 ， 不 过 这 个 选项 需要 MTU (maximum transmission 
unit， 最 大 传输 单元 ) 超过 65 535 的 数据 链 路 提供 支持 。 (这 是 为 
ee eee a 
MTU ° 

许多 网 络 有 一 个 可 由 硬件 规定 的 MTU。 举 例 来 说 ， 以 太 网 的 MTU 
是 1500 字 有 。 另 有 一 些 链 路 〈 例 如 使 用 PPP 协 议 的 点 到 点 链 路 ) 
其 MTU 可 以 人 为 配置 。 较 老 的 SLIP 链 路 通常 使 用 1006 字 节 或 296 
字 节 的 MTU ° 

IPv4 要 求 的 最 小 链 路 MTU 是 68 字 节 。 这 人 允许 最 大 的 IPv4 首 部 CE), 
括 20 字 节 的 固定 长 度 部 分 和 最 多 40 字 节 的 选项 部 分 ) 拼接 最 小 的 
片段 (IPv4 首 部 中 片段 偏 移 字 段 以 8 个 字 节 为 单位 。IPv6 要 求 的 
最 小 链 路 MTU 为 1280 字 节 。IPv6 可 以 运行 在 MTU 小 于 此 最 小 值 的 
链 路 上 ， 不 过 需要 特定 于 链 路 的 分 片 和 重组 功能 ， 以 使 得 这 些 链 
路 看 起 来 具有 至 少 为 1280 字 节 的 MTU (RFC 2460 [Deering and 
Hinden 1998| ) ° 


54~ 
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在 两 个 主机 之 间 的 路 径 中 最 小 的 MTU 称 为 路 径 MTU (path 
MTU) 。1500 字 节 的 以 太 网 MTU 是 当今 常见 的 路 径 MTU。 两 个 
主机 之 间 相 反 的 两 个 方向 上 路 径 MTU 可 以 不 一 致 ， 因 为 在 因特网 


中 路 由 选择 往往 是 不 对 称 的 [Paxson 1196] ， 也 就 是 说 从 A 到 B 的 
路 径 与 从 B 到 A 的 路 径 可 以 不 相同 。 

。 当 一 个 IP 数 据 报 将 从 某 个 接口 送出 时 ， 如 果 它 的 大 小 超过 相应 链 
路 的 MTU，IPv4 和 IPv6 都 将 执行 分 片 (fragmentation) 。 这 些 片 
段 在 到 达 最 终 目 的 地 之 前 通常 不 会 被 重组 (reassembling) ° IPv4 
主机 对 其 产生 的 数据 报 执行 分 片 ，IPv4 路 由 器 则 对 其 转发 的 数据 
报 执行 分 片 。 然 而 IPv6 只 有 主机 对 其 产生 的 数据 报 执行 分 片 ， 
IPv6 路 由 器 不 对 其 转发 的 数据 报 执行 分 片 。 


我 们 必须 小 心 这 些 术语 的 使 用 。 一 个 标记 为 IPv6 路 由 絮 的 设备 可 
能 执行 分 片 ， 不 过 只 是 对 于 那些 由 它 产 生 的 数据 报 ， 而 绝 不 是 对 于 那 
些 由 它 转发 的 数据 报 。 当 该 设备 产生 IPv6 数 据 报时 ， 它 实际 上 作为 主 
机 运作。 举例 来 说 ， 大 多 数 路 由 喜 文 持 Telnet 协 议 ， 管 理 员 束 用 它 来 配 
置 路 由 侨 。 由 路 由 器 的 Telnet 服 务 右 产生 的 IP 数 据 报 是 由 路 由 器 产生 
的 ， 而 不 是 由 路 由 紫 转 发 的 。 


你 可 能 注意 到 ，IPv4 首 部 (图 A-1) 有 用 于 处 理 IPv4 分 片 的 字段 ， 
IPV6 首 部 (图 A-2) 却 没有 类 似 的 字段 。 既 然 分 片 是 例外 情况 而 不 是 通 
常情 况 ，IPv6 于 古 引 入 一 个 可 选 首 部 以 提供 分 片 信息 。 


某 些 通常 用 作 路 由 右 的 防火 墙 可 能 会 重组 分 片 了 的 分 组 ， 以 便 胡 
看 整个 IP 数 据 报 的 内 容 。 这 样 做 使 得 不 必 在 防火 墙 上 引入 额外 的 复杂 
性 残 能 够 防止 某 些 攻击 。 它 还 要 求 防火 墙 设备 是 进出 网 络 的 唯一 路 径 
上 的 设备 ， 从 而 减少 了 元 余 的 机 会 。 


。IPv4 首 部 (图 A-1) 的 “不 分 片 (don't fragment) ”位 ( 即 DF 位 ) 
若 被 设置 ， 那 么 不 管 是 发 送 这 些 数据 报 的 主机 还 是 转发 它们 的 路 
由 器 ， 都 不 允许 对 它们 分 厂 。 当 路 由 器 接收 到 一 个 超过 其 外 出 链 
路 MTU 大 小 且 设 置 了 DF 位 的 IPv4 数 据 报时 ， 它 将 产生 一 个 
ICMPv4“destination unreachable, fragmentation needed but DF bit 
ae (目的 地 不 可 达 ， 需 分 片 但 DF 位 已 设置 ) 出 错 消 息 (图 A- 
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既然 IPv6 路 由 器 不 执行 分 片 ， 每 个 IPv6 数 据 报 于 是 隐 伟 一 个 DF 
位 。 当 IPv6 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 的 IPv6 数 
据 报时 ， 它 将 产生 一 个 ICMPv6“packet too big”( 分 组 太 大 ) 出 错 
消息 (图 A-16) 。 

IPV4 的 DF 位 和 IPvV6 的 隐 含 DF 位 可 用 于 路 径 MTU 发 现 (IPv4 的 情形 
见 RFC 1191 [Mogul and Deering 1990] ，IPv6 的 情形 见 RFC 1981 


| McCann, Deering, and Mogul 1996] ) 。 举 例 来 说 ， 如 果 基 于 
IPv4 的 TCP 使 用 该 技术 ， 那 么 它 将 在 所 发 送 的 所 有 数据 报 中 设置 
DF 人 位。 如 果 某 个 中 间 路 由 絮 运 回 一 个 ICMP“destination 
unreachable, fragmentation needed but DF bit set”* 错 误 ，TCP 就 减 小 
每 个 数据 报 的 数据 量 并 重 传 。 路 径 MTU 发 现 对 于 IPv4 是 可 选 的 ， 
然而 IPv6 的 所 有 实现 要 么 必须 文 持 它 ， 要 么 必须 总 是 使 用 最 小 的 
MTU 发 送 IPv6 数 据 报 。 


路 径 MTU 发 现在 如 今 的 因特网 上 是 有 问题 的 ， 许 多 防火 墙 丢 弃 所 


有 ICMP 消 息 ， 包 括 用 于 路 径 MTU 发 现 的 上 述 消 息 。 这 意味 着 TCP 永 远 
得 不 到 要 求 它 降 低 所 发 送 数据 量 的 信号 。 编 写本 书 时 ，IETF 已 经 开始 
党 试 定义 不 依赖 于 ICMP 出 错 消息 的 男 一 种 路 径 MTU 发 现 方 法 。 


IPv4 和 IPv6 都 定义 了 最 小 重组 缓冲 区 大 小 (minimum reassembly 
buffer size) ， 它 是 IPv4 或 IPv6 的 任何 实现 都 必须 保证 文 持 的 最 小 
数据 报 大 小 。 其 值 对 于 IPv4 为 576 字 节 ， 对 于 IPv6 为 1500 字 节 。 例 
如 ， 就 IPv4 而 言 ， 我 们 不 能 判定 某 个 给 定 目 的 地 能 否 接 受 577 字 六 
的 数据 报 。 为 此 有 许多 使 用 UDP 的 IPv4 网 络 应 用 (如 DNS ` RIP ` 
TFTP ` BOOTP ` SNMP) 避免 产生 大 于 这 个 大 小 的 数据 报 。 
TCP 有 一 个 MSS (maximum segment size， 最 大 分 节 大 小 ) ， 用 于 
回 对 端 TCP 通 告 对 端 在 每 个 分 节 中 能 发 送 的 最 大 TCP 数 据 量 。 在 
图 2-5 中 我 们 看 到 过 SYN 分 节 上 的 MSS 选 项 。MSS 的 目的 是 告诉 对 
端 其 重组 缓冲 区 大 小 的 实际 值 ， 从 而 试图 避免 分 片 。MSS 经 常设 
置 成 MTU 减 去 IP 和 TCP 首 部 的 固定 长 度 。 在 以 太 网 中 使 用 IPv4 的 
MSS 值 为 1460， 使 用 IPv6 的 MSS 值 为 1440 (两 者 的 TCP 首 部 都 是 
20 个 字 节 ， 但 IPv4 首 部 是 20 字 节 ，IPv6 首 部 却 是 40 字 节 ) ° 

在 TCP 的 MSS 选 项 中 ，MSS 值 是 一 个 16 位 的 字段 ， 限 定 其 最 大 值 
为 65 535。 这 对 于 IPv4 是 适合 的 ， 因 为 IPv4 数 据 报 中 的 最 大 TCP 数 
据 量 为 65 495 (65 535 减 去 IPv4 首 部 的 20 字 节 和 TCP 首 部 的 20 字 
节 ) 。 然 而 对 于 具有 特大 净 集 选项 的 IPv6， 却 需要 使 用 另外 一 种 
技巧 (RFC 2675 |Borman, Deering, and Hinden 1999] ) 。 首 先 ， 
没有 特大 净 谷 选项 的 IPv6 数 据 报 中 的 最 大 TCP 数 据 量 为 65 515 (65 
535 减 去 TCP 首 部 的 20 字 节 ) 。65 535 这 个 MSS 值 于 是 被 视 为 表 
示 “ 无 限 ” 的 一 个 特殊 值 。 该 值 只 在 用 到 特大 净 集 选项 时 才 使 用 ， 
不 过 这 种 情况 却 要 求实 际 的 MTU 超 过 65 535。 其 次 ， 如 果 TCP 使 
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它 所 发 送 数据 报 的 大 小 限制 就 是 接口 MTU。 如 果 这 个 值 太 大 (也 
就 是 说 所 在 路 径 中 某 个 链 路 的 MTU 比 较 小 ) ， 那 么 路 径 MTU 发 现 
功能 将 确定 这 个 较 小 值 。 


os 消 所 有 地 址 发 现 的 最 小 路 径 MTU 保 持 一 个 分 片 
点 。 这 个 最 小 MTU 大 小 用 于 把 较 大 的 用 户 消 息 分 割 成 较 小 的 能 够 
以 单个 Ip 数 据 报 发 送 的 才干 片段 < SCTP_MAXSEG 套 接 字 选项 可 以 
影响 该 值 ， 使 得 用 户 能 够 请 求 一 个 更 小 的 分 片 点 。 


2.11.1 TCP 输 出 
_ 图 2-15 展 示 了 某 个 应 用 进程 写 数据 到 一 个 TCP 套 接 字 中 时 发 生 的 


应 用 进程 缓冲 区 “ 任 总 大 小 》 
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图 2-15 ”应 用 进程 写 TCP 套 接 字 时 涉及 的 步骤 和 缓冲 区 
每 一 个 TCP 套 接 字 有 一 个 发 送 缓冲 区 ， 我 们 可 以 使 用 SO_SNDBUF 
套 接 字 选项 来 更 改 该 缓冲 区 的 大 小 ( 见 7.5 节 ) 。 当 某 个 应 用 进程 调用 


write 时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 
的 发 送 缓冲 区 。 如 果 该 套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 
数据 〈 或 是 应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 
的 发 送 缓 冲 区 中 已 有 其 他 数据 ) ， 该 应 用 进程 将 被 投入 睡眠 。 这 里 假 
设 该 套 接 字 是 阻塞 的 ， 它 是 通常 的 默认 设置 。 (我 们 将 在 第 16 章 中 前 
述 非 阻塞 的 套 接 字 。) 内 核 将 不 从 write 系统 调用 返回 ， 直 到 应 用 进 
程 缓 冲 区 中 的 所 有 数据 都 复制 到 套 接 字 发 送 缓冲 区 。 因 此 ， 从 写 一 个 
TCP 套 接 字 的 write 调用 成 功 返 回 仅仅 表示 我 们 可 以 重新 使 用 原来 的 
应 用 进程 缓冲 区 ， 并 不 表明 对 端的 TCP 或 应 用 进程 已 接收 到 数据 。 
(我 们 将 在 7.5 节 随 SO_LINGER 套 接 字 选项 详细 讨论 这 一 点 。) 


这 一 端的 TCP 提 取 套 接 字 发 送 缓冲 区 中 的 数据 并 把 它 发 送 给 对 端 
TCP， 其 过 程 基于 TCP 数 据 传送 的 所 有 规则 〈TCPv1 的 第 19 章 和 第 20 
XE) 。 对 端 TCP 必 须 确认 收 到 的 数据 ， 伴 随 来 自 对 端的 ACK 的 不 断 到 
达 ， 本 端 TCP 至 此 才能 从 套 接 字 发 送 缓冲 区 中 丢弃 已 确认 的 数据 。 
TCP 必 须 为 已 发 送 的 数据 保留 一 个 副本 ， 直 到 它 被 对 端 确认 为 止 。 


本 端 TCP 以 MSS 大 小 的 或 更 小 的 块 把 数据 传递 给 卫 ， 同 时 给 每 个 
数据 块 安 上 一 个 TCP 首 部 以 构成 TCP 分 节 ， 其 中 MSS 或 是 由 对 端 通 告 
的 值 ， 或 是 536 〈 若 对 端 未 发 送 一 个 MSS 选 项 。 (536 是 IPv4 最 小 重 
组 缓冲 区 字 世 数 576 减 去 ITPv4 首 部 字 节 数 20 和 TCP 首 部 字 他 数 20 的 结 
Ro) IP 给 每 个 TCP 分 节 安 上 一 个 IP 首 部 以 构成 了 数据 报 ， 并 按照 其 有 目 
的 IP 地 址 查找 路 由 表 项 以 确定 外 出 接口 ， 然 后 把 数据 报 传递 给 相应 的 
数据 链 路 。IP 可 能 在 把 数据 报 传递 给 数据 链 路 之 前 将 其 分 片 ， 不 过 我 
们 已 经 谈 到 MSS 选 项 的 目的 之 一 就 是 试图 避免 分 乒 ， 较 新 的 实现 还 使 
用 了 路 径 MTU 发 现 功能 。 每 个 数据 链 路 都 有 一 个 输出 队列 ， 如 果 该 队 
列 已 满 ， 那 么 新 到 的 分 组 将 被 丢弃 ， 并 沿 协 议 栈 癌 上 返回 一 个 错误 : 
从 数据 链 路 到 IP， 再 从 IP 到 TCP。TCP 将 注意 到 这 个 错误 ， 并 在 以 后 某 
个 时 刻 重 传 相 应 的 分 节 。 应 用 进程 并 不 知道 这 种 暂时 的 情况 。 


2.11.2 ”UDP 输出 
NL 了 某 个 应 用 进程 写 数据 到 一 个 UDP 套 接 字 中 时 发 生 的 
sae ° 
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图 2-16 ”应 用 进程 写 UDP 套 接 字 时 涉及 的 步骤 与 缓冲 区 


这 一 次 我 们 以 虚线 框 展 示 套 接 字 发 送 缓冲 区 ， 因 为 它 实 际 上 并 不 
存在 。 任 何 UDP 套 接 字 都 有 发 送 缓 冲 区 大 小 〈 我 们 可 以 使 用 
SO_SNDBUF 套 接 字 选项 更 改 它 ， 见 7.5 节 ) ， 不 过 它 仅 仅 是 可 写 到 该 
套 接 字 的 UDP 数据 报 的 大 小 上 限 。 如 果 一 个 应 用 进程 写 一 个 大 于 套 接 
字 发 送 缓冲 区 大 小 的 数据 报 ， 内 核 将 返回 该 进程 一 个 EMSGSIZE 错 
误 。 有 既然 UDP 是 不 可 靠 的 ， 它 不 必 保 存 应 用 进程 数据 的 一 个 副本 ， 因 
此 无 需 一 个 真正 的 发 送 缓冲 区 。 (应 用 进程 的 数据 在 沿 协议 栈 向 下 传 
遂 时 ， 通 常 被 复制 到 某 种 格式 的 一 个 内 核 缓 冲 区 中 ， 然 而 当 该 数据 被 
发 送 之 后 ， 这 个 副本 就 被 数据 链 路 层 丢 弃 了 。) 


这 一 端的 UDP 人 简单 地 给 来 自用 户 的 数据 报 安 上 它 的 8 字 节 的 首部 以 
构成 UDP 数据 报 ， 然 后 传递 给 IP。IPv4 或 ITPv6 给 UDP 数据 报 安 上 相应 
的 也 首部 以 构成 IP 数 据 报 ， 执 行路 由 操作 确定 外 出 接口 ， 然 后 或 者 直 
接 把 数据 报 加 入 数据 链 路 层 输出 队列 (如 果 适 合 于 MTU) ， 或 者 分 片 


后 再 把 每 个 片段 加 入 数据 链 路 层 的 输出 队列 。 如 果 某 个 UDP 应 用 进程 
发 送 大 数据 报 《譬如 说 2000 字 节 的 数据 报 ) ， 那 么 它们 相 比 TCP 应 用 
数据 更 有 可 能 被 分 片 ， 因 为 TCP 会 把 应 用 数据 划分 成 MSS 大 小 的 块 ， 
而 UDP 却 没有 对 等 的 手段 。 


59] 
从 写 一 个 UDP 套 接 字 的 write 调用 成 功 返 回 表 示 所 写 的 数据 报 或 
其 所 有 片段 已 被 加 入 数据 链 路 层 的 输出 队列 。 如 果 该 队列 没有 足够 的 
空间 存放 该 数据 报 或 它 的 某 个 片段 ， 内 核 通 常会 返回 一 个 ENOBUEFS 
背 误 给 它 的 应 用 进程 。 
不 幸 的 是 ， 有 些 UDP 的 实现 不 返回 这 种 错误 ， 这 样 甚至 数据 报 未 
经 发 送 就 被 丢弃 的 情况 应 用 进程 也 不 知道 。 
2.11.3 SCTP 输 出 


图 2-17 展 示 了 某 个 应 用 进程 写 数据 到 一 个 SCTP 套 接 字 中 时 发 生 的 
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图 2-17 ”应 用 进程 写 SCTP 套 接 字 时 涉及 的 步骤 和 缓冲 区 


既然 SCTP 是 与 TCP 类 似 的 可 靠 协 议 ， 它 的 套 接 字 也 有 一 个 发 送 缓 
冲 区 ， 而 且 跟 TCP 一 样 ， 我 们 可 以 用 SO_SNDBUF 套 接 字 选项 来 更 改 这 
个 缓冲 区 的 大 小 〈 见 7.5 节 ) 。 当 一 个 应 用 进程 调用 write 时 ， 内 核 从 
该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 
果 该 套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 (或 是 应 用 进 
程 的 缓冲 区 大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 已 
有 其 他 数据 ) ， 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻塞 
D 它 是 通常 的 默认 设置 。 (我 们 将 在 第 16 章 中 前 述 非 阻塞 的 套 接 

。) 内 核 将 不 从 write 系 统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 
丰 数 据 者 复制 到 僚 接 字 发 送 缓冲 区 。 因此 ， 从 写 一 个 SCTP 套 接 字 的 
write 调用 成 功 返 回 仅 仅 表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 
区 ， 并 不 表明 对 端的 SCTP 或 应 用 进程 已 接收 到 数据 。 


这 一 端的 SCTP 提 取 套 接 字 发 送 缓冲 区 的 数据 并 把 它 发 送 给 对 端 
SCTP， 其 过 程 基于 SCTP 数 据 传送 的 所 有 规则 (数据 传送 的 细节 见 
Stewart and Xie 2001] 的 第 5 章 ) 。 本 端 SCTP 必 须 等 待 SACK， 在 累 
E es 才 可 以 从 套 接 字 缓冲 区 中 删除 该 数 


2.12 ”标准 因特网 服务 


图 2-18 列 出 了 TCP/IP 多 数 实现 都 提供 的 厦 十 标准 服务 。 注 意 ， 表 
M rom AL mO 号 也 
Him] 。 
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图 2-18 ”大 多 数 实现 提供 的 标准 TCP/P 服 务 @ 


这 些 服务 通常 由 Unix 主 机 的 inetd 守 护 进程 提供 〈 见 13.5 节 ) 。 
它们 还 提供 借用 标准 的 Telnet 客 户 程 序 就 能 完成 的 简易 测试 机 制 。 举 例 
来 议 ， 下 面 就 是 时 间 获 取 和 回 射 这 两 个 标准 服务 部 的 测试 过 程 : 


aix % telnet freebsd daytime 


Trying 12.106.32.254... Telnet 客 户 输出 
Connected to freebsd.unpbook.com. Telnet 客 户 输出 
Escape character is '4]'. Telnet 客 户 输 出 
Mon Jul 28 11:56:22 2003 daytime 服 务 器 输出 
Connection closed by foreign host. Telnet 客 户 输 出 (服务 器 关 
闭 连 接 ) 

aix % telnet freebsd echo 

Trying 12.106.32.254... Telnet P 
Connected to freebsd.unpbook.com. Telnet 客 户 输出 
Escape character is '4]'. Telnet P 
hello, world 我 们 键入 这 行 
hello, world 它 由 服务 器 回 射 回来 


^] 键入 Ctrl+] 以 与 Telnet 客 户 
交谈 

telnet> quit 
Connection closed. 


f 诉 客户 我 们 已 测试 完毕 
次 客户 自己 关闭 连接 


oF 


as 


在 这 两 个 例子 中 ， 我 们 键入 主机 名 和 服务 名 (daytime 
echo) 。 这 些 服务 名 由 /etc/services 文 件 映 射 到 图 2-18 所 示 的 端 
OS, 11.57 ° 


注意 ， 当 我 们 连接 到 daytime 服 务 器 时 ， 服 务 器 执行 主动 关闭 ， 
然而 当 连 接 到 echo 服 务 器 时 ， 客 户 执 行 主动 关闭 。 回 顾 图 2-4， 我 们 
知道 执行 主动 天 闭 的 那 一 端 束 是 历经 TIME_WAIT 状 态 的 那 一 端 。 


为 了 应 付 针 对 它们 的 拒绝 服务 攻击 和 其 他 资源 使 用 攻击 ， 在 如 今 
的 系统 中 ， 这 些 简 单 的 服务 通 前 被 禁用 。 


2.13 ”常见 因特网 应 用 的 协议 使 用 


图 2-19 总 结 了 各 种 常见 的 因特网 应 用 对 协议 的 使 用 情况 。 
inim P 


tracercute . . 


OSPF (C? " 
RIP (Pies 

BGP iru EX 
ROOTP (5| 7 9) 
DACP (3 引导 协议 ) 

NTP IH [ul oix 

TITP (IEf4TTP? 

SNMP (PJESE HE) 

SMTP (H akt? 

Telnet (3,82 GE 

SSII (REMMER?) 
FI? 《文件 传送 ; 

HLLP (Web) 
NNIP ( (9) 97H: 

Ler (远程 打印 ; 

DNS (HWER) 

NFS (MER xq RAD 

Sun RPC (x26 Frid HY > 
DCL RPC 远程 过 程 调 用 ) 
IUA (IE 之 上 的 ISDN ) 
M2UA/M3UA 〈SS7 电 语 千 令 》 
F248 (MEA SCE dil: 
H.323 (PHR) 

SIP (IP fii) 


图 2-19 各 种 常见 因特网 应 用 的 协议 使 用 情况 


ping 


前 两 个 因特网 应 用 ping 和 traceroute 是 使 用 ICMP 协 议 实 现 的 
网 络 诊断 应 用 。traceroute 自 行 构 造 UDP 分 组 来 发 送 并 读 取 所 引发 
的 ICMP 应 答 。 


紧 接着 是 3 个 流行 的 路 由 协议 ， 它 们 展示 了 路 由 协议 使 用 的 各 种 传 
输 协 议 。OSPF 通 过 原始 套 接 字 直接 使 用 IP，RIP 使 用 UDP，BGP 使 用 
TCP ° 


接 下 来 5 个 是 基于 UDP 的 网 络 应 用 ， 然 后 是 7 个 TCP 网 络 应 用 和 4 个 
同时 使 用 UDP 和 TCP 的 网 络 应 用 ， 最 后 5 个 是 也 电话 网 络 应 用 ， 它 们 或 
者 独 目 使 用 SCTP， 或 者 选用 UDP、TCP 或 SCTP ° 


2.14 ”小结 


UDP 是 一 个 简单 、 不 可 靠 、 无 连接 的 协议 ， 而 TCP 是 一 个 复杂 、 
可 靠 、 面 向 连接 的 协议 。SCTP 组 合 了 这 两 个 协议 的 一 些 特性 ， 并 提供 
了 TCP 所 不 具备 的 额外 特性 。 尽 管 绝 大 多 数 因 特 网 应 用 (Web ` 
Telnet、FTP 和 电子 邮件 ) 使 用 TCP， 但 这 3 个 协议 对 传输 层 都 是 必要 
的 。 在 22.4 节 中 我 们 将 阐述 选用 UDP 蔡 代 TCP 的 理由 。 在 23.12 节 中 我 
们 将 阐述 选用 SCTP 替 代 TCP 的 理由 。 


TCP 使 用 三 路 握手 建立 连接 ， 使 用 四 分 组 交换 序列 终止 连接 。 当 
一 个 TCP 连 接 被 建立 时 ， 它 从 CLOSED 状 态 转 换 到 ESTABLISHED 状 
AS; 当 该 连接 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 个 TCP 连 接 可 处 
于 11 种 状态 之 一 ， 其 状态 转换 图 给 出 了 从 一 种 状态 转换 到 另 一 种 状态 
的 规则 。 理 解 状 态 转 换 图 是 使 用 netstat 命 令 诊断 网 络 问题 的 基础 ， 
也 是 理解 当 某 个 应 用 进程 调用 诸如 connect、accept 和 cl1ose 等 函 
数 时 所 发 生 过 程 的 关键 。 


TCP 的 TIME_WAIT 状 态 一 直 是 一 个 造成 网 络 编程 人 员 混 消 的 来 
源 。 存 在 这 一 状态 是 为 了 实现 TCP 的 全 双 工 连接 终止 〈 即 处 理 最 终 那 
个 ACK 丢 失 的 情形 ) ， 并 人 允许 老 的 重复 分 节 从 网 络 中 消逝 。 


SCTP 使 用 四 路 握手 建立 关联 ， 使 用 三 分 组 交换 序列 终止 关联 。 当 
一 个 SCTP 关 联 被 建立 时 ， 它 从 CLOSED 状 态 转换 到 ESTABLISHED 状 
态 ;， 当 该 关联 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 个 SCTP 关 联 可 处 
于 8 种 状态 之 一 ， 其 状态 转换 图 给 出 从 一 种 状态 转换 到 另 一 种 状态 的 规 
则 。SCTP 不 像 TCP 那 样 需要 TIME_WAIT 状 态 ， 因 为 它 使 用 了 验证 标 
记 。 


习题 


24 我 们 已 经 提 到 IPv4 (IP 版 本 4) 和 IPv6 (版 本 6) 。IP 版 本 5 情 
况 如 何 ， 卫 版 本 0、1、2 和 3 又 是 什么 ? 


(提示 : 查 IANA 的 “Internet ProtocoP 注 册 处 。 要 是 你 无 法 访问 
IANA 所 在 网 址 http://www.iana.org, IARAA P Se FAVRE UE, o) 


2.2 ”你 从 哪里 可 以 找到 有 关 IP 版 本 5 的 信息 ? 


2.3 在 讲解 图 2-15 时 我 们 说 过 ， 如 采 没 收 到 来 目 对 端的 MSS 选 
项 ， 本 端 TCP 束 采用 536 这 个 MSS 值 。 为 什么 使 用 这 个 值 ? 


2.4 ”给 在 第 1 章 中 讲解 的 时 间 获 取 客 户 /服务 器 应 用 画 出 类 似 于 图 
假设 服务 句 在 单个 TCP 分 节 中 返回 26 个 字 市 的 完 


2.55 ”在 一 个 以 太 网 上 的 主机 和 一 个 令 牌 环 网 上 的 主机 之 间 建 立 一 
个 连接 ， 其 中 以 太 网 上 主机 的 TCP 通 告 的 MSS 为 1460， 令 牌 环 网 上 主 
机 的 TCP 通 告 的 MSS 为 4096。 两 个 主机 都 没有 实现 路 径 MTU 发 现 功 
- o S 我 们 在 两 个 相反 方向 上 都 找 不 到 大 于 1460 字 节 的 数 
, AUT A‘ 


2.6 ”在 讲解 图 2-19 时 我 们 说 过 OSPF 直 接 使 用 IP。 承 载 OSPF 数 据 
报 的 IPv4 首 部 ( 见 图 A-1) 的 协议 字段 是 什么 值 ? 


2. ”在 讨论 SCTP 输 出 时 我 们 说 过 ，SCTP 发 送 并 必须 等 待 社 积 确 
认 操 超过 已 发 送 的 数据 ， 才 可 以 从 套 接 字 缓冲 区 中 释放 该 数据 。 假 设 
某 个 选择 性 确认 (SACK) 表明 索 积 确认 点 之 后 的 数据 也 得 到 了 确 
认 ， 这 样 的 数据 为 什么 却 不 能 被 释放 呢 ? 


@“ 失 而 复 现 的 分 组 ”这 个 译 法 出 自 第 2 版 ， 这 一 版 中 改 为 “陈旧 的 、 延 
述 的 或 重复 的 分 广 ”"， 却 没 能 准确 表达 Stevens 先 生 的 原意 。 失 而 复 现 
的 分 组 并 不 是 超时 重 传 的 分 组 ， 而 是 由 和 暂时 的 路 由 原因 造成 的 迷途 的 
分 组 。 当 路 由 稳定 后 ， 它 们 又 会 正常 到 达 目 的 地 ， 其 前 提 是 它们 在 此 
前 尚未 被 路 由 器 丢弃 。 高 速 网 络 中 32 位 的 序列 号 短 时 间 内 了 束 可 能 循环 
一 轮 重新 使 用 ， 帮 不 用 时 间 戳 选项， 失 而 复 现 的 分 组 所 承载 的 分 和 可 
能 与 再 次 使 用 相同 序列 号 的 真正 分 蔬 发 生 混 消 。 BERE 


@ 本 图 同时 给 出 了 这 些 标准 因特网 服务 的 英文 名 称 和 中 文 名 称 ， 其 中 
英文 名 称 是 正式 名 称 (/etc/services 文 件 使 用 这 些 名 称 ) 。 之 所 
以 这 么 区 分 是 因为 本 书 围绕 其 中 两 种 服务 〈 回 射 和 时 间 获 取 ) 的 实现 
展开 ， 为 区 分 本 书 中 的 实现 与 各 个 Unix 系 统 的 内 部 实现 ， 我 们 用 中 文 
名 称 称呼 前 者 ， 用 英文 名 称 称呼 后 者 〈 原 书 也 对 两 者 做 了 类 似 区 

4) 。 男 外 内 部 实现 的 服务 总 是 使 用 标准 端口 号 ， 本 书 实现 的 服务 则 
可 根据 情况 选择 。 因 此 当 使 用 英文 名 称 服 务 名 时 ， 必 定 与 其 标准 端口 
号 对 应 。 一 一 译 者 注 
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第 3 章 ” 套 接 字 编程 简介 
3.1 概述 


本 章 开始 讲解 套 接 子 API。 我 们 从 人 套 接 字 地 址 结构 开始 讲解 ， 本 
书 中 几乎 每 个 例子 都 用 到 它们 。 这 些 结构 可 以 在 两 个 方 同 上 传递 ， 从 
进程 到 内 核 和 从 内 核 到 进程 。 其 中 从 内 核 到 进程 方向 的 传递 十 值 一 结 
果 参 数 的 一 个 例子 ， 我 们 会 在 本 书 中 讲 到 这 些 参 数 的 许多 例子 。 


地 址 转换 函数 在 地 址 的 文本 表达 和 它们 存放 在 套 接 字 地 址 结构 中 
的 二 进 制 值 之 间 进 行 转换 。 多 数 现存 的 IPv4 代 码 使 用 ijnet_addr 和 
inet_ntoa 这 两 个 函数 ， 不 过 两 个 新 久 数 ijnet_pton 和 inet_ntop 
同时 适用 于 IPv4 和 IPv6 两 种 代码 。 


这 些 地 址 转换 函数 存在 的 一 个 问题 是 它们 与 所 转换 的 地 址 类 型 协 
议 相 关 ， 要 堵 虚 究竟 古 IPv4 地 址 还 是 IPv6 地 址 。 为 殉 服 这 个 问题 ， 我 
们 开发 了 一 组 名 字 以 sock_ 开 头 的 函数 ， 它 们 以 协议 无 天方 式 使 用 套 
ue o 我们 将 贯穿 全 书 使 用 这 组 函数 ， 使 我 们 的 代码 与 协议 


3.2” 套 接 字 地 址 结构 


大 多 数 套 接 字 函数 都 需要 一 个 指向 套 接 字 地 址 结构 的 指针 作为 参 
数 。 每 个 协议 族 都 定义 它 自己 的 套 接 字 地 址 结构 。 这 些 结构 的 名 字 均 
以 sockaddr_ 开 涉 ， 并 以 对 应 每 个 协议 族 的 唯一 后 缀 结尾。 


3.2.1 ”IPv4 套 接 字 地 址 结构 


IPv4 套 接 字 地 址 结构 通常 也 称 为 “网 际 套 接 字 地 址 结构 ”， 它 以 
sockaddr_in 命 名 ， 定 义 在 <netinet/in.h> 头 文件 中 。 图 3-1 给 
了 它 的 POSIX 定 义 。 


struct in_addr { 
in_addr + s addr; /* 32-bit IPv4 address */ 
/* network byte ordered */ 


struct sockaddr ia ( 


vint8 t sin len; /* length of structure (16! -/ 

sa tamily t sin family; /* AF INET */ 

in port - sin port; /* 16-bit TCP or UDP port number */ 
/* network byte ordered */ 

struct in addr sin addr; /* 32-bit TPv4 address */ 
/* network byte ordered 4/ 

char sin zoro[8]; /* unused */ 


图 3-1 ”网际 (IPv4) 套 接 字 地 址 结构 : sockaddr in 


" 利用 图 3-1 所 示 的 例子 ， 我 们 对 套 接 字 地 址 结构 做 几 点 一 般 性 的 说 


长 度 字 段 sin_len 是 为 增加 对 OSI 协 议 的 支持 而 随 4.3BSD-Reno 添 
加 的 (图 1-15); 。 在 此 之 前 ， 第 一 个 成 员 是 sin_family， 它 是 
一 个 无 符号 短 整 数 (unsigned short) 。 并 不 是 所 有 的 厂家 都 
支持 套 接 字 地 址 结构 的 长 度 字 段 ， 而 且 POSIX 规 范 也 不 要 求 有 这 


个 成 员 。 该 成 员 的 数据 类 型 uint8_t 是 典型 的 ， 符 合 POSIX 的 系 
统 都 提供 这 种 形式 的 数据 类 型 ( 见 图 3-2) 。 
正定 因为 有 了 长 度 字 段 ， 才 简化 了 长 度 可 变 套 接 字 地 址 结构 的 处 


理 。 


int8 - 


vinte t 


intlé t 


vintle t 
int32 t 


vint32 t 


带 符号 的 8 位 整数 
元 符 巡 的 8 位 不 数 
TES Ceo Sd 
XA 3 POLE HE 
PETES PIS [LC 
X S PIS 21M 


esys/cvpes.h» 
<sys/types.h> 
esys/types.h> 
<sys/types.h> 
<sys/types.h> 
esys/types.h> 


sa_family t $e HES fh Jy GER fy od: 5 ssys/socket.h> 
socklen 上 套 接 空地 址 结构 的 长 度 , — HEN uinc32 t <5ys/socket . h> 
in_ader_t IPv4 地 址 ， 一 般 为 uint32 t 

in port t TCPPEUDPSRLI, —ftjuint-e t 


图 3-2 POSIX#IE BRAN AERA 


。 即使 有 长 度 字 段 ， 我 们 也 无 须 设 置 和 检查 它 ， 除 非 涉及 路 由 套 接 
F 〈 见 第 18 章 ) 。 它 是 由 处 理 来 自 不 同 协议 族 的 套 接 字 地 址 结构 
的 例 程 (例如 路 由 表 处 理 代 码 ) 在 内 核 中 使 用 的 。 


在 源 自 Berkeley 的 实现 中 ， 从 进程 到 内 核 传递 套 接 字 地 址 结构 的 4 
个 套 接 字画 数 (bind、connect、sendto 和 sendmsg) 都 要 调用 
sockargsEÉNZX 〈 见 TCPv2 第 452 页 ) 。 该 函数 从 进程 复制 套 接 字 地 址 
结构 ， 并 显 式 地 把 它 的 sin_len 字 上 段 设置 成 早先 作为 参数 传递 给 这 4 
个 函数 的 该 地 址 结构 的 长 度 。 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 5 个 
套 接 字画 数 分 别 是 accept、recvfrom、recvmsg、getpeername 
和 getsockname， 均 在 返回 到 进程 之 前 设置 sin_len 字 上 段 。 


遗憾 的 是 ， 通 常 没有 简单 的 编译 时 测试 来 确定 一 个 实现 是 否 为 它 
的 套 接 字 地 址 结构 定义 了 长 度 字 段 。 在 我 们 的 代码 中 ， 我 们 通过 测试 
HAVE_SOCKADDR_SA_LEN 常 值 ( 见 图 D.2) 来 确定 ， 然 而 是 否定 义 该 
常 值 则 需 编译 一 个 使 用 这 一 可 选 结构 成 员 的 简单 测试 程序 ， 并 看 是 否 


<netinet/in.h> 


«net iret/ir.h» 


编译 成 功 来 决定 。 在 图 3-4 中 我 们 将 看 到 ， 如 果 套 接 字 地 址 结构 有 长 度 
字段 ， 则 IPv6 实 现 需 定义 SIN6_LEN 。 一 些 IPv4 实 现 (例如 Digital 
Unix) 基于 某 个 编译 时 选项 (例如 _SOCKADDR_LEN) 确定 是 否 给 应 
i a 中 的 长 度 字 段 。 这 个 特性 为 较 早 的 程序 提 
共 了 兼容 性 。 


e POSIX 规 范 只 需要 这 个 结构 中 的 3 个 字段 : sin family^ 
sin_addr 和 sin_port。 对 于 符合 POSIX 的 实现 来 说 ， 定 义 额 外 
的 结构 字段 是 可 以 接受 的 ， 这 对 于 网 际 套 接 字 地 址 结构 来 说 也 是 
正常 的 。 几 乎 所 有 的 实现 都 增加 了 sin_zero 字 段 ， 所 以 所 有 的 
套 接 字 地 址 结构 大 小 都 至 少 是 16 字 广 。 

我 们 给 出 了 字段 s_addr、sin_family 和 sin_port 的 POSIX 数 
据 类 型 。in_addr_t 数 据 类 型 必须 是 一 个 至 少 32 位 的 无 符号 整数 
类 型 ，in_port_t 必 须 是 一 个 至 少 16 位 的 无 符号 整数 类 型 ， 而 
sa family _ t 可 以 是 任何 无 符号 整数 类 型 。 在 支持 长 度 字段 的 
实现 中 ，sa_family_t 通 常 是 一 个 8 位 的 无 从 号 整数 ， 而 在 不 文 
持 长 度 字 段 的 实现 中 ， 它 则 是 一 个 16 位 的 无 符号 整数 。 图 3-2 列 出 
oe eee 
我 们 还 将 遇 到 数据 类 型 u_char、u_short、u_int 和 u_long， 
它们 都 是 无 符号 的 。POSIX 规 范 定 义 这 些 类 型 时 特地 标记 它们 已 
过 时 ， 仅 是 为 向 后 兼容 才 提 供 的 。 

IPv4 地 址 和 TCP 或 UDP 端口 号 在 套 接 字 地 址 结构 中 总 是 以 网 络 字 
节 序 来 存储 。 在 使 用 这 些 字段 时 ， 我 们 必须 牢记 这 一 点 。 我 们 将 
在 3.4 节 中 详细 说 明 主 机 字 节 序 与 网 络 字 节 序 的 区 别 。 


。 32 位 IPv4 地 址 存在 两 种 不 同 的 访问 方法 。 举 例 来 说 ， 如 果 serv 定 
义 为 某 个 网 际 套 接 字 地 址 结构 ， 那 么 serv .sin_addr 将 按 
in_addr 结 构 引 用 其 中 的 32 位 IPv4 地 址 ， 而 
serv.sin_addr.s_addr 将 按 in_addr_t (通常 是 一 个 无 符号 
的 32 位 整数 ) 引用 同一 个 32 位 IPv4 地 址 。 因 此 ， 我 们 必须 正确 地 
使 用 IPv4 地 址 ， 尤 其 是 在 将 它 作为 函数 的 参数 时 ， 因 为 编译 右 对 
传递 结构 和 传递 整数 的 处 理 是 完全 不 同 的 。 


sin_addr 字 上段 是 一 个 结构 ， 而 不 仅仅 是 一 个 jn_addr_t 类 型 的 
无 符号 长 整数 ， 这 是 有 历史 原因 的 。 早 期 的 版 本 (4.2BSD) 把 
in_addr 结 构 定 义 为 多 种 结构 的 联合 (union) ， 人 允许 访问 一 个 32 位 
IPv4 地 址 中 的 所 有 4 个 字 节 ， 或 者 访问 它 的 2 个 16 位 值 。 这 用 在 地 址 被 
划分 成 A、B 和 C 三 类 的 时 期 ， 便 于 获取 地 址 中 的 适当 字 节 。 然 而 随 着 
子 网 划分 技术 的 来 临 和 无 类 地 址 编排 ( 见 A.4 节 ) 的 出 现 ， 各 种 地 址 类 
正在 消失 ， 那 个 联合 已 不 再 需要 了 。 如 今 大 多 数 系 统 已 经 废除 了 该 联 
合 ， 转 而 把 in_addr 定 义 为 仅 有 一 个 in_addr_t 字 段 的 结构 。 


e Sin_zero 字 段 未 曾 使 用 ， 不 过 在 填写 这 种 套 接 字 地 址 结构 时 ， 
我 们 总 是 把 该 字段 置 为 0。 按照 惯例 ， 我 们 总 是 在 填写 前 把 整个 结 
构 置 为 0， 而 不 是 单单 把 sin_zero 字 段 置 为 0。 


尽管 多 数 使 用 该 结构 的 情况 不 要 求 这 一 字段 为 0， 但 是 当 捆 绑 一 个 
非 通 配 的 IPv4 地 址 时 ， 该 字段 必须 为 0 (TCPv2 第 731~-732 页 ) ° 


e 套 接 字 地 址 结构 仅 在 给 定 主机 上 使 用 : 虽然 结构 中 的 某 些 字段 
〈 例 如 I 卫 地 址 和 端口 号 ) 用 在 不 同 主机 之 间 的 通信 中 ， 但 是 结构 
本 身 并 不 在 主机 之 间 传 递 。 


3.2.2 通用 套 接 字 地 址 结构 


当 作为 一 个 参数 传递 进 任 何 套 接 字 函数 时 ， 套 接 字 地 址 结构 总 古 
以 引用 形式 〈 也 就 是 以 指向 该 结构 的 指针 ) 来 传递 。 然 而 以 这 样 的 指 
针 作 为 参数 之 一 的 任何 套 接 字 函数 必须 处 理 来 目 所 支持 的 任何 协议 族 
的 套 接 字 地 址 结构 。 


在 如 何 声明 所 传递 指针 的 数据 类 型 上 存在 一 个 问题 。 有 了 ANSIC 
后 解决 办 法 很 简单 : void * 是 通用 的 指针 类 型 。 然 而 套 接 字 函数 是 
在 ANSI C 之 前 定义 的 ， 在 1982 年 采取 的 办 法 是 在 <sys/socket .h> 
头 文件 中 定义 一 个 通用 的 套 接 字 地 址 结构 ， 如 图 3-3 所 示 。 


Struct sockaddr { 
uint8 t sa len; 
sa family t sa family; /* address family: AF xxx value */ 
char sa_data [14]; /* protccol-specific address */ 


h 


图 3-3 ”通用 套 接 字 地 址 结构 : sockaddr 


于 是 套 接 字 轴 数 被 定义 为 以 指 癌 茶 个 通用 套 接 字 地 址 结构 的 一 个 
指针 作为 其 参数 之 一 ， 这 正如 bind 函 数 的 ANSI C 函 数 原型 所 示 : 


int bind(int, struct sockaddr *, socklen_t); 


JB BE OT I EE ER AE fe V8] H ER 2d BE F TA] PE PY 
接 字 地 址 结构 的 指针 进行 类 型 强制 转换 (casting) ， 变 成 指向 茶 个 通 
用 套 接 字 地 址 结构 的 指针 ， 例 如 : 


struct sockaddr_in serv; /* IPv4 socket address 
structure */ 


/* fill in serv{} */ 


bind(sockfd, (struct sockaddr *) &serv, sizeof(serv)); 


如 果 我 们 省 略 了 其 中 的 类 型 强制 转换 部 分 “(struct sockaddr 
* )”， 并 假设 系统 的 头 文件 中 有 bind 画 数 的 一 个 ANSI C 原 型 ， 那 么 C 
编译 器 就 会 产生 这 样 的 警告 信息 : “warning: passing arg 2 of 'bind' from 
incompatible pointer type.”( 和 警告， 把 不 兼容 的 指针 类 型 传递 给 bind' 
函数 的 第 二 个 参数 。) 


从 应 用 程序 开发 人 员 的 观点 看 ， 这 些 通用 套 接 字 地 址 结构 的 唯一 
: 途 就 是 对 指向 特定 于 协议 的 套 接 字 地 址 结构 的 指针 执行 类 型 强制 转 


回顾 一 下 1.2 节 ， 在 我 们 自己 的 unp .h 头 文件 中 ， 把 SA 定义 为 
struct sockaddr 只 是 为 了 缩短 类 型 强制 转换 这 些 指 针 所 必须 写 的 
代码 。 


从 内 核 的 角度 看 ， 使 用 指向 通用 套 接 字 地 址 结构 的 指针 男 有 原 
A: 内 核 必须 取 调 用 者 的 指针 ， 把 它 类 型 强制 转换 为 struct 
sockaddr * 类 型 ， 然 后 检查 其 中 sa_family 字 有 段 的 值 来 确定 这 个 结 
构 的 真实 类 型 。 然 而 从 应 用 程序 开发 人 员 的 角度 看 ， 要 是 void * 这 
个 指针 类 型 可 用 那 就 更 简单 了 ， 因 为 无 须 显 式 进行 类 型 强制 转换 。 


3.2.3 ”IPv6 套 接 字 地 址 结构 


IPv6 套 接 字 地 址 结构 在 <netinet/in.h> 头 文件 中 定义 ， 如 图 3- 
4 所 示 。 


struct in6 addr ( 
units t s6 addrilél; 


3s 
ja 


#define STN6 LEN 


struct cockaddr ine { 


Rive 
je 


uints t. 
sa family t 
in port t 


uint3:2 t 
struct in& addr 


uinti2 t 


/* requires 


sin& len; 
gin6 familv; 
sin6 port; 


eine f*1owinfo; 
sin6 addr; 


sin6 scope :di 


/* 125 bit IPv6 address */ 


/* network byte crdered 4/ 


for compile-time tests */ 


/* length of this struct (28) */ 

/* AF INETS */ 

/* trensport layer pcort& */ 

/* network byte crdered */ 

/* flow infermation, undefined */ 
/* IPvü address */ 

/* network byte crdered */ 

/* set of interfaces for a scope */ 


图 3-4 ”IPv6 套 接 字 地 址 结构 : sockaddr_in6 


oM 展 定义 在 RFC 3493F [Gilligan et al. 
2003] 。 


对 于 图 3-4 我 们 要 注意 以 下 几 后 。 
如 有 果 系 统 文 持 套 接 子 地 址 结构 中 的 长 度 子 段 ， 那 么 SIN6_LEN 策 


值 必须 定义 。 


IPV6 的 地 址 族 是 AF_INET6， 而 IPv4 的 地 址 族 是 AF_INET。 
结构 中 字段 的 先后 顺序 做 过 编排 ,使 得 如 果 sockaddr_in6 结 构 


本 身 是 64 位 对 齐 的 ， 那 么 128 位 的 Sin6_addr 字 段 也 是 64 位 对 齐 
的 。 在 一 些 64 位 处 理 机 上 ， 如 果 64 位 数据 存储 在 某 个 64 位 边界 位 


置 ， 那 么 对 它 的 访问 将 得 到 优化 处 理 。 
sin6_flowinfo 字 段 分 成 两 个 字段 : 
o 低 序 20 位 是 流标 (flow label) ; 


高 序 12 位 保留 。 
流标 字段 随 图 A-2 讲 解 。 它 的 使 用 仍然 是 一 个 研究 课题 。 
。 对 于 具备 范围 的 地 址 (scoped address) , sin6 scope id-E 
标识 其 范围 (scope) ， 最 常见 的 是 链 路 局 部 地 址 (link-local 
address) 的 接口 索引 (interface index) (WAST) ° 


3.2.4 ”新 的 通用 套 接 字 地 址 结构 


作为 IPv6 套 接 字 API 的 一 部 分 而 定义 的 新 的 通用 套 接 字 地 址 结构 克 
服 了 现 有 struct sockaddr 的 一 些 缺 点 。 不 像 struct 
sockaddr， 新 的 struct sockaddr_storage 足 以 容纳 系统 所 支 
持 的 任何 套 接 字 地 址 结构 。sockaddr_storage 结 构 在 
<netinet/in.h> 头 文件 中 定义 ， 如 图 3-5 所 示 。 


struct sockaddr_storase [ 


uirt8 t ss len; /*^ length of this struct (inplementacion dependent) */ 
sa family t Se fani.y!: /* addrece family: AF xxx value */ 
/* impiementation-dependent elements to provide: 
* a) alignrent sufficient tc fulfill the alignment requirements of 
all sccket address types that the system supports. 
tb) emagi storage Lo bold any type of 
system supports. 


socket address that the 


+g 


T 


图 3-5 ”存储 套 接 字 地 址 结构 : sockaddr storage 


sockaddr_storage 类 型 提供 的 通用 套 接 字 地 址 结构 相 比 
sockaddr 存 在 以 下 两 点 差别 。 


(1) 如 果 系 统 文 持 的 任何 套 接 字 地 址 结构 有 对 齐 需要 ， 那 么 
sockaddr_storage 能 够 满足 最 苛刻 的 对 齐 要 求 。 


(2) sockaddr_storage 足 够 大 ， 能 够 容纳 系统 文 持 的 任何 套 接 
字 地 址 结构 。 


注意 ， 除 了 ss_family 和 ss_len 外 (如 果 有 的 话 ) , 
sockaddr_storage 结 构 中 的 其 他 字段 对 用 户 来 说 是 透明 的 。 


sockaddr_storage 结 构 必须 类 型 强制 转换 成 或 复制 到 适合 于 
ss_family 字 上段 所 给 出 地 址 类 型 的 套 接 字 地 址 结构 中 ， 才 能 访问 其 他 
字段 。 


3.2.5” 套 接 字 地 址 结构 的 比较 


在 图 3-6 中 ， 我 们 对 本 书 将 遇 到 的 5 种 套 接 字 地 址 结构 进行 了 比 
较 : IPv4、IPv6、Unix 域 ( 见 图 15-1) 、 数 据 链 路 〈 见 图 18-1) 和 存 
储 。 在 该 图 中 ， 我 们 假设 所 有 套 接 字 地 址 结构 都 包含 一 个 单字 闻 的 长 
地 址 族 字段 也 占用 一 个 字 节 ， 其 他 所 有 字段 都 占用 确切 的 最 


IPy4 IPv5 Unix Het 存储 
sockaddr ini) g sockaddr in6() ! sockaddr un() sockaddr d1{} sockaddr sto:age() 
Ke AF INET Ki lar INETS | Km pF Locad | kie [ar Lmx| | Ke | ^F XXX 

1 | EE 
ine D 8 | Ya r3 ET S 


32 位 JPv4 地 址 32 位 流标 


接口 为 宇和 


128 位 1Pv6 池 址 涟 路 后 地 起 
司 定 t) T (用户 透 明 ) 
ih £1007) = 
AIN 
图 18-! 
32436 SID 
Rise KJE ORF W) 
图 3-3 
n] Xen RH PRAM 


图 15-1 


图 3-6 不同 套 接 字 地 址 结构 的 比较 


前 两 种 套 接 字 地 址 结构 是 固定 长 度 的 ， 而 Unix 域 结构 和 数据 链 路 
结构 是 可 变 长 度 的 。 为 了 处 理 长 度 可 变 的 结构 ， 当 我 们 把 指向 某 个 套 
接 字 地 址 结构 的 指针 作为 一 个 参数 传递 给 某 个 套 接 字 函数 时 ， 也 把 该 
结构 的 长 度 作为 另 一 个 参数 传递 给 这 个 函数 。 我 们 在 每 种 长 度 固 定 的 
结构 下 方 给 出 了 这 种 结构 的 字 节 数 长 度 (就 4.4BSD 实 现 而 言 ) ° 


sockaddr_un 结 构 本 身 并 非 长 度 可 变 的 ( 见 图 15-1) ,但 是 其 中 
的 信息 ( 即 结 构 中 的 路 径 名 ) 却 是 长 度 可 变 的 。 当 传递 指向 这 些 结构 
的 指针 时 ， 我 们 必须 小 心 处 理 长 度 字段 ， 包 括 套 接 字 地 址 结构 本 身 的 
KEFR 《如果 其 实现 支持 此 字段 ) ， 以 及 作为 参数 传 给 内 核 或 从 内 
核 返 回 的 长 度 。 


本 图 展示 了 我 们 贯穿 全 书 的 一 种 风格 :结构 名 用 加 粗 字 体 ， 后 跟 
花 括 号 ， 例 如 sockaddr_in{}。 


我 们 早先 指出 ， 长 度 字 段 是 随 着 4.3BSD Reno 版 本 增加 到 所 有 套 
接 字 地 址 结构 中 的 。 要 是 长 度 字段 随 套 接 字 API 的 原始 版 本 提供 了 ， 
那么 所 有 套 接 字画 数 就 不 再 需要 长 度 参数 一 一 例如 bind 和 connect 
ee 。 相反， 结构 的 大 小 可 以 包含 在 结构 的 长 度 字 段 
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我 们 提 到 过 ， 当 往 一 个 套 接 字画 数 传递 一 个 套 接 字 地 址 结构 时 ， 
该 结构 总 是 以 引用 形式 来 传递 ， 也 就 是 说 传递 的 是 指 同 该 结构 的 一 个 
BET » 该 结构 的 长 度 也 作为 一 个 参数 来 传递 ， 不 过 其 传递 方式 取决 于 
该 结构 的 传递 方向 : 是 从 进程 到 内 核 ， 还 是 从 内 核 到 进程 。 

(1) 从 进程 到 内 核 传递 套 接 字 地 址 结构 的 函数 有 3 个 : bind > 
connect 和 sendto。 这 些 函 数 的 一 个 参数 是 指 癌 某 个 确 接 字 地 址 结 
构 的 指针 ， 另 一 个 参数 是 该 结构 的 整数 大 小 ， 例 如 : 


struct sockaddr_in serv; 


/* fill in serv{} */ 
connect(sockfd, (SA *) &serv, sizeof(serv)); 


既然 指针 和 指针 所 指 内 容 的 大 小 都 传递 给 了 内 核 ， 于 是 内 核 知 道 


到 瓜 需 从 进程 复制 多 少数 据 进来 。 图 3-7 展 示 了 这 个 情形 。 


la 
74 


用 户 进程 


地 址 结构 | 


办 议 地 址 


图 3-7 ”从 进程 到 内 核 传递 套 接 字 地 址 结构 


我 们 将 在 下 一 章 中 看 到 ， 套 接 字 地 址 结构 大 小 的 数据 类 型 实际 上 
是 socklen_t， 而 不 是 jnt， 不 过 POSIX 规 范 建 议 将 socklen_t 定 义 
为 uint32_t。 


(2) 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 函数 有 4 个 : accept > 
recvfrom、getsockname 和 getpeername。 这 4 个 函数 的 其 中 两 个 
参数 是 指 癌 某 个 套 接 字 地 址 结构 的 指针 和 指 问 表示 该 结构 大 小 的 整数 
变量 的 指针 。 例 如 : 


struct sockaddr_un cli; /* Unix domain */ 
socklen_t len; 


len = sizeof(cli); /* len is a value */ 
getpeername(unixfd, (SA *) &cli, &len); 
/* len may have changed */ 


把 套 接 字 地 址 结构 大 小 这 个 参数 从 一 个 整数 改 为 指向 某 个 整数 变 
量 的 指针 ， 其 原因 在 于 : 当 函 数 被 调用 时 ， 结 构 大 小 是 一 个 值 
(value) ， 它 告诉 内 核 该 结构 的 大 小 ， 这 样 内 核 在 写 该 结构 时 不 至 于 
越界 ， 当 函数 返回 时 ， 结 构 大 小 又 是 一 个 结果 (result) ， 它 告诉 进程 
内 核 在 该 结构 中 究竟 存储 了 多 少 信 息 。 这 种 类 型 的 参数 称 为 值 一 结果 
(value-result) 参数 。 图 3-8 展 示 了 这 个 情形 。 


用 户 进程 


int* 
长 虔 
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图 3-8 ”从 内 核 到 进程 传递 套 接 字 地 址 结构 
我 们 将 在 图 4-11 中 看 到 一 个 值 -结果 参数 的 例子 。 


我 们 一 直 在 说 套 接 字 地 址 结构 是 在 进程 和 内 核 之 间 传 递 的 。 对 于 
诸如 4.4BSD 之 类 的 实现 来 说 ， 由 于 所 有 套 接 字 函 数 都 是 内 核 中 的 系统 
调用 ， 因 此 这 是 正确 的 。 然 而 在 男 外 一 些 实现 特别 是 System VF, E 
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协议 栈 如 何 接口 是 这 些 实现 的 细 和 问题 ， 对 我 们 来 说 通常 没有 任何 影 
啊 。 然 而 为 简单 起 见 ， 我 们 继续 说 这 些 结构 通过 诸如 bind 和 
connect 等 贸 数 在 进程 与 内 核 之 间 进 行 传递 。 我 们 将 在 C.1 广 看 到 ， 
System V 的 确 在 进程 和 内 核 之 间 传 递 套 接 字 地 址 结构 ， 不 过 那 是 作为 
流 消息 (STREAMS message) 的 一 部 分 传递 的 。 


传递 套 接 字 地 址 结构 的 函数 还 有 两 个 : recvmsg 和 Sendmsg (Jl 
145) 。 我 们 将 看 到 ， 它 们 套 接 字 地 址 结构 的 长 度 不 是 作为 函数 参 
数 而 是 作为 结构 字段 传递 的 。 


当 使 用 值 一 结果 参数 作为 套 接 字 地 址 结构 的 长 度 时 ， 如 果 套 接 字 
地 址 结构 是 固定 长 度 的 〈 见 图 3-6) ， 那 么 从 内 核 返 回 的 值 总 是 那个 固 
定 长 度 ， 例 如 IPv4 的 sockaddr_in 长 度 是 16，IPv6 的 
sockaddr_in6 长 度 是 28。 然 而 对 于 可 变 长 度 的 套 接 字 地 址 结构 〈 例 
如 Unix 域 的 sockaddr_un) ， 返 回 值 可 能 小 于 该 结构 的 最 大 长 度 
( 见 图 15-2) ° 


在 网 络 编程 中 ， 值 一 结 采 参 数 最 常见 的 例子 是 所 返回 套 接 字 地 址 
结构 的 长 度 。 不 过 本 书 中 我 们 还 会 碰 到 其 他 值 一 结 采 参数 : 


。 select 函 数 中 间 的 3 个 参数 ( 见 6.3 节 ) ; 
e getsockopt 函 数 的 长 度 参数 ( 见 7.2 节 ) i 


。 使 用 recvmsg 画 数 时 ，msghdr 结 构 中 的 msg_namelen 和 
msg_controllen 字 段 ( 见 14.5 节 ) ; 

。ifconf 结 构 中 的 ifc_len 字 段 ( 见 图 17-2) ; 

。 SySsct1 函 数 两 个 长 度 参 数 中 的 第 一 个 〈 见 18.4 节 ) ° 


3.4 FHF RKA 


考虑 一 个 16 位 整数 ， 它 由 2 个 字 节 组 成 。 内 存 中 存储 这 两 个 字 节 有 
两 种 方法 : 一 种 是 将 低 ) TP Fea PE RL 这 称 为 小 端 (little- 
endian) 5E DE; Fi F473 法 是 将 高 序 字 广 存 储 在 起 始 地 址 ， 这 称 为 
大 端 (big-endian) 字 节 序 。 图 3- 9 展示 了 这 两 种 格式 。 


内 存 地 址 增 大 方 癌 
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小 端 字 节 序 : TED 低 序 字 节 


16 位 值 


地 址 4 th em | 
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图 3-9 16 位 整数 的 小 端 字 节 序 和 大 端 字 节 序 
”在 该 图 中 ， 我 们 在 顶部 标明 内 存 地 址 增长 的 方 同 为 从 右 到 左 ， 在 
夺 部 标明 内 存 地 址 增长 的 方 同 为 从 左 到 右 。 我 们 还 标明 最 高 有 效 位 
(most significant bit, MSB) 是 这 个 16 位 值 最 左边 一 位 ， 最 低 有 效 位 
(least significant bit, LSB) 是 这 个 16 位 值 最 右边 一 位 。 
术语 “小 端 " 和 “大 端 ” 表 示 多 个 字 市 值 的 哪 一 端 〈 小 端 或 大 端 ) 存 
储 在 该 值 的 起 始 地 址 。 
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使 用 。 我 们 把 某 个 给 定 系 统 所 用 的 字 节 序 称 为 主机 字 节 序 (host byte 
order) 。 图 3-10 所 示 程 序 输出 主机 字 节 序 。 


intre/byicordcr.c 


1 #incluce "unp.h" 

2 int 

3 mainí(:rt argc, char **argv) 
4 { 


t union { 
é short s; 
char c[sizcot ichort)}] ; 
8 } un; 
E un.B - 0x0l02; 
10 printfi'$5: ", CFU V3NDOR OS;; 
1i if (sizeofishort) -- 2) { 
12 i= (un.clO] == 1 && un.cil] == 2) 
13 print f (*hig-endia: An*):; 
14 Clee iE (u2.c[0] == 2 && un.c[1) == 1; 
15 pring f(*1i tle-encien\n"); 
16 else 
17 printf (*um<nown\n") ; 
18 ] elsa 
15 printf (*sizeof (short! = %d\n", asizeof(shor:)); 


20 exit ið); 


intrc/byteorder.c 


图 3-10 ”确定 主机 字 节 序 的 程序 


我 们 在 一 个 短 整 数 变 量 中 存放 2 字 节 的 值 0x0102， 然 后 查看 它 的 
两 个 连续 字 节 c[6] (对 应 图 3-9 中 的 地 址 A) 和 c[1] (对 应 图 3-9 中 的 
地 址 A+1) ， 以 此 确定 字 节 序 。 


字符 串 CPU_VENDOR_0S 是 由 GNU 的 autoconf 程 序 在 配置 本 书 
中 的 软件 时 确定 的 ， 它 标识 CPU 类 型 、 厂 家 和 操作 系统 版 本 。 这 里 我 
D la 它们 是 这 个 程序 在 图 1-16 所 示 的 各 个 系统 上 运行 的 


freebsd4 % byteorder 
1386-unknown-freebsd4.8: little-endian 


macosx % byteorder 
powerpc-apple-darwin6.6: big-endian 


freebsd5 % byteorder 
sparc64-unknown-freebsd5.1: big-endian 


aix % byteorder 
powerpc-ibm-aix.0: big-endian 


hpux % byteorder 
hppai.1-hp-hpuxii.11: big-endian 


linux % byteorder 
1586-pc-linux-gnu: little-endian 


solaris % byteorder 
sparc-sun-solaris2.9: big-endian 


我 们 已 讨论 了 16 位 整数 的 字 节 序 。 显 然 ， 同 样 的 讨论 也 适用 于 32 
位 整数 。 


当今 有 不 少 系 统 能 够 在 系统 复位 时 (例如 MIPS 2000) ， 或 者 在 
运行 之 时 (例如 Intel i860) ， 在 大 端 字 节 序 和 小 端 字 节 序 之 间 切 换 。 


既然 网 络 协议 必须 指定 一 个 网 络 字 节 序 (network byte order) , 
作为 网 络 编程 人 员 的 我 们 必须 清楚 不 同 字 节 序 之 间 的 差异 。 举 例 来 
说 ， 在 每 个 TCP 分 节 中 都 有 16 位 的 端口 号 和 32 位 的 IPv4 地 址 。 发 送 协 
议 栈 和 接收 协议 栈 必须 就 这 些 多 字 节 字段 各 个 字 节 的 传送 顺序 达成 一 
致 。 网 际 协议 使 用 大 端 字 节 序 来 传送 这 些 多 字 节 整数 。 


从 理论 上 说 ， 具 体 实现 可 以 按 主 机 字 蔬 序 存储 套 接 字 地 址 结构 中 
的 各 个 字段 ， 等 到 需要 在 这 些 字段 和 协议 首部 相应 字段 之 间 移 动 时 ， 
再 在 主机 字 节 序 和 网 络 字 下 序 之 间 进 行 互 转 ， 让 我 们 免 于 操心 转换 细 
节 。 然 而 由 于 历史 的 原因 和 POSIX 规 范 的 规定 ， 套 接 字 地 址 结构 中 的 
某 些 字段 必须 按照 网 络 字 节 序 进行 维护 。 因 此 我 们 要 关注 如 何在 主机 
zu EE quat 
4AT ERE ° 


#include 


uint16_t htons(uinti6 t hosti6bitvalue) ; 


uint32_t htonl(uint32_t host32bitvalue); 


均 返 回 : Wea Fe 
的 值 
uint16_t ntohs(uinti6 t neti6bitvalue); 


uint32 t ntohl(uint32 t net32bitvalue); 


的 值 


均 返 回 : EIF TF 


在 这 些 函 数 的 名 字 中 ，h 代 表 jhost，n 代 表 mnetwork，Ss 代 表 short， 工 
代表 long。short 和 long 这 两 个 称谓 是 出 目 4.2BSD 的 Digital VAX 实 现 的 
历史 产物 。 如 今 我 们 应 该 把 s 视 为 一 个 16 位 的 值 〈 例 如 TCP 或 UDP 端口 
号 ) ， 把 1 视 为 一 个 32 位 的 值 (例如 IPv4 地 址 ; 。 事 实 上 即使 在 64 位 的 
Digital Alpha 中 ， 尽 管 长 整数 占用 64 位 ，hton1 和 ntoh1 画 数 操 作 的 仍 
然 是 32 位 的 值 。 


当 使 用 这 些 函 数 时 ， 我 们 并 不 关心 主机 字 节 序 和 网 络 字 节 序 的 真 
实 值 (BON Aig, BOA) wie) 。 我 们 所 要 做 的 只 是 调用 适当 的 函数 在 
主机 和 网 络 字 市 序 之 间 转 换 某 个 给 定 值 。 在 那些 与 网 际 协议 所 用 字 市 
FF 〈 大 端 ) 相同 的 系统 中 ， 这 四 个 函数 通常 被 定义 为 空 宏 。 


除了 协议 首部 中 各 个 字段 的 字 节 序 问 题 外 ， 我 们 将 在 5.18 节 和 习 
题 5.8 中 讨论 网 络 分 组 中 所 含 数据 的 字 市 序 问 题 。 


至 此 我 们 尚未 定义 字 方 (byte) 这 个 术语 。 既 然 几 乎 所 有 的 计算 
机 系统 都 使 用 8 位 字 记 ， 我 们 就 用 该 术语 来 表示 一 个 8 位 的 量 。 大 多 数 
因特网 标准 使 用 八 位 组 (octet) 这 个 术语 而 不 是 使 用 字 市 来 表示 8 位 的 
量 。 该 术语 起 始 于 TCP/IP 发 展 的 早期 ， 当 时 许多 早期 的 工作 是 在 诸如 
DEC-10 这 样 的 系统 上 进行 的 ， 这 些 系统 就 不 使 用 8 位 的 字 节 。 


因特网 标准 中 另外 一 个 重要 的 约定 是 位 序 。 在 许多 作为 因特网 标 
准 的 RFC 文 档 中 ， 可 以 看 到 类 似 如 下 的 分 组 “图 ”* 示 (该 文本 图 出 自 
RFC 791， 是 IPv4 首 部 的 前 32 位 ) : 


0 1 2 3 
0123456789 0123456789 012345678901 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 


|Version| IHL |Type of Service| Total Length | 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 


ERATE EE PAS S 《32 个 位 ) me 
边 的 位 是 最 早出 现 的 最 高 有 效 位 。 注 意 位 序 的 编号 从 0 开始 ， 分 配给 最 
高 有 效 位 的 编号 为 0° 我 们 应 该 开始 熟悉 这 种 记 法 ， 以 方便 阅读 RFC 文 
档 中 的 协议 定义 。 


20 世 纪 80 年 代 在 网 络 编程 上 存在 一 个 通病 : 在 Sun 工 作 站 (Ki 
Motorola 68000) 上 开发 代码 时 没有 调用 这 4 个 函数 中 的 任何 一 个 。 这 
些 代码 在 这 些 工 作 站 上 都 能 运行 ， 但 是 当 移 植 到 小 端 机 器 (例如 VAX 
系列 机 ) 上 时 ， 便 根本 不 能 工作 。 


3.5 CE BPRAJAENZN 
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设 数 据 是 以 空 字符 结束 的 C 字 符 串 。 当 处 理 套 接 字 地 址 结构 时 ， 我 们 
需要 这 些 类 型 的 范 数 ， 因 为 我 们 需要 操纵 诸如 IP 地 址 这 样 的 字段 ， 这 
些 字 段 可 能 包含 值 为 0 的 字 节 ， 却 并 不 是 C 字 符 串 。 以 空 字 符 结 尾 的 C 
字符 串 是 由 在 <string .h> 头 文件 中 定义 、 名 字 以 str (表示 子 符 
FB) 开头 的 函数 处 理 的 。 


名 字 以 b (表示 字 节 ) 开头 的 第 一 组 函数 起 源 于 4.2BSD， 几 乎 所 
有 现今 支持 套 接 字 函 数 的 系统 仍然 提供 它们 。 和 名 字 以 mem (表示 内 
f£) 开头 的 第 二 组 函数 起 源 于 ANSI CRE, FFANSI C 画 数 库 的 所 有 
系统 都 提供 它们 。 

我 们 首先 给 出 源 自 Berkeley 的 函数 ， 本 书 中 我 们 只 使 用 其 中 一 个 
一 一 bzero。 (我 们 使 用 它 是 因为 它 只 有 2 个 参数 ， 比 起 3 个 参数 的 
memset 函 数 来 要 容易 记 些 ， 这 在 前 边 已 解释 过 。) 其 他 两 个 函数 
bcopy 和 bcmp 你 也 许 会 在 现 有 的 应 用 程序 中 见 到 。 


#include <strings.h> 


void bzero(void *dest, size_t nbytes); 


void bcopy(const void *src, void *dest, size_t nbytes); 


int bcmp(const void *ptri, const void *ptr2, size_t nbytes); 


返回 : 若 术 


为 90， 否则 为 非 9 


这 是 我 们 首次 遇 到 ANSI C 的 const 限 定 词 。 就 它 在 这 儿 的 三 处 使 
用 来 说 ， 它 表示 所 限定 的 指针 (src^ ptrifüptr2) 所 指 的 内 容 不 会 被 画 
数 更 改 。 换 句 话 说， 函数 只 是 读 而 不 修改 由 const 指 针 所 指 的 内 存单 
JE o 


bzerojE Ain PSE ANS BAO o 340 T8 98 (58 FL AK 
RETER THARA 384730 * bcopy HEE a AAT A TR 
FIREA BFR o bemp ea MERA D ER, AAEN [e] 
值 为 0， 否 则 返回 值 为 非 0。 


我 们 随后 给 出 ANSI CHIZ: 
#include <string.h> 


void *memset(void *dest, int c, size_t len); 


void *memcpy(void *dest, const void *src, size_t nbytes); 


int memcmp(const void *ptri, const void *ptr2, size t nbytes); 


返回 : 若 相 等 则 为 9， 


否则 为 <9 或 >9 


memset 把 目标 字 节 串 指定 数目 的 字 节 置 为 值 c。memcpy 类 似 
bcopy， 不 过 两 个 指针 参数 的 顺序 是 相反 的 。 当 源 字 市 串 与 目标 字 市 
串 重 琶 时 ，bcopy 能 够 正确 处 理 ， 但 是 memcpy 的 操作 结果 却 不 可 
知 。 这 种 情形 下 必须 改 用 ANSI Cü'memmove ax ° 


记 住 nemcpy 两 个 指针 参数 顺序 的 方法 之 一 是 记 着 它们 是 按照 与 C 
中 的 赋值 语句 相同 的 顺序 从 左 到 右 书写 的 : 


dest = src; 


记 住 memset 最 后 两 个 参数 顺序 的 方法 之 一 是 认识 到 所 有 ANSIC 
的 memXXX 函 数 都 需要 一 个 长 度 参数 ， 而 且 它 总 是 最 后 一 个 参数 。 


memcmp 比 较 两 个 任意 的 字 蔬 串 ， 知 相同 则 返回 0， 否 则 返回 一 个 
非 0 值 ， 是 大 于 0 还 是 小 于 0 则 取决 于 第 一 个 不 等 的 字 节 : 如 果 ptr1 所 指 
字 节 串 中 的 这 个 字 节 大 于 ptr2 所 指 字 节 中 的 对 应 字 节 ， 那 么 大 于 0， 否 
则 小 于 0。 我 们 的 比较 操作 是 在 假设 两 个 不 等 的 字 节 均 为 无 符号 字符 
(unsigned char) 的 前 提 下 完成 的 。 


36 inet _aton~. inet addril 
inet _ntoaHA 
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符 串 (这 是 人 们 偏爱 使 用 的 格式 ) 与 网 络 字 节 序 的 二 进 制 值 (这 是 存 
放 在 套 接 字 地 址 结构 中 的 值 ， 之 间 转 换 网 际 地 址 。 


(1) inet_aton、inet_addr 和 inet_ntoa 在 点 分 十 进 制 数 串 
(例如 *206.168.112.96”) 与 它 长 度 为 32 位 的 网 络 字 节 序 二 进 制 值 
间 转 换 IPv4 地 址 。 你 可 能 会 在 许多 现 有 代码 中 见 到 这 些 函 数 。 


(2) 两 个 较 新 的 函数 inet_pton 和 inet_ntop 对 于 IPv4 地 址 和 
IPv6 地 址 都 适用 。 我 们 将 在 下 一 节 中 讲解 它们 并 在 全 书 中 使 用 它们 。 


#include <arpa/inet.h> 


int inet_aton(const char *strptr, struct in_addr *addrptr); 


返回 : 车 字符 串 有 


效 则 为 1， 否 则 为 9 


in_addr_t inet_addr(const char *strptr); 


返回 : 若 字符 串 有 效 则 为 32 位 二 进 制 网 络 字 节 序 的 IPV4 地 址 ， 


则 为 INADDR_NONE 


char *inet ntoa(struct in_addr inaddr); 


iat Hl SOC BST 


第 一 个 函数 ijnet_aton 将 strptr 所 指 C 字 符 串 转换 成 一 个 32 位 的 网 
co 并 通过 指针 qddrptr 来 存储 。 若 成 功 则 返回 1， 否 
则 返回 0。 


inet_aton 函 数 有 一 个 没 写 入 正式 文档 中 的 特征 :如 果 addrptr 指 
ee 字符 串 执 行 有 效 性 检查 ， 但 是 不 存 


inet_addr 进 行 相同 的 转换 ， 返 回 值 为 32 位 的 网 络 字 节 序 二 进 制 
值 。 该 函数 存在 一 个 问题 : 所 有 232 个 可 能 的 二 进 制 值 都 是 有 效 的 也 地 
HE (从 .0 到 255.255.255.255) ， 但 是 当 出 错时 该 函数 返回 
INADDR_NONE 常 值 (通常 是 一 个 32 位 均 为 1 的 值 )。 这 意味 着 点 分 十 
进 制 数 串 255.255.255.255 (这 是 IPv4 的 有 限 广播 地 址 ， 见 20.2 节 ) 不 能 
由 该 函数 处 理 ， 因 为 它 的 二 进 制 值 被 用 来 指示 该 函数 失败 。 


inet_addr 夯 数 还 存在 一 个 潜在 的 问题 ， 一 些 手册 页 面 声明 该 函 
数 出 错时 返回 -1 而 不 是 INADDR_NONE。 这 样 在 对 该 函数 的 返回 值 (一 
个 无 符号 的 值 ) 和 一 个 负 常 值 (-1) 进行 比较 时 可 能 会 发 生 问 题 ， 具 
体 取决 于 C 编 译 器 。 


如 今 inet_addr 已 被 废弃 ， 新 的 代码 应 该 改 用 inet_aton 画 
数 。 更 好 的 办 法 是 使 用 下 一 节 中 介绍 的 新 函数 ， 它 们 对 于 IPv4 地 址 和 
IPv6 地 址 都 适用 。 


inet_ntoa 函 数 将 一 个 32 位 的 网 络 字 节 序 二 进 制 IPv4 地 址 转换 成 
相应 的 点 分 十 进 制 数 串 。 由 该 函数 的 返回 值 所 指向 的 字符 串 驻 留 在 静 
态 内 存 中 。 这 意味 着 该 函数 是 不 可 重 入 的 ， 这 个 概念 我 们 将 在 11.18 节 
中 讨论 。 最 后 需要 留意 ， 该 函数 以 一 个 结构 而 不 是 以 指 回 该 结构 的 一 
个 指针 作为 其 参数 。 
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这 两 个 函数 是 随 IPv6 出 现 的 新 函数 ， 对 于 IPv4 地 址 和 IPv6 地 址 都 
适用 。 本 书 通 篇 都 在 使 用 这 两 个 函数 。 男 数 名 中 p 和 mn 分别 代表 表达 
(presentation) 和 数值 (numeric) 。 地 址 的 表达 格式 通常 是 ASCII 字 
符 串 ， 数 值 格式 则 是 存放 到 套 接 字 地 址 结构 中 的 二 进 制 值 。 


#include <arpa/inet.h> 


int inet pton(int family, const char *strptr, void *addrptr); 


返回 : 若 成 功 则 为 1， 若 输入 不 是 有 效 的 表达 格式 则 


普 则 为 -1 


const char *inet_ntop(int family, const void *addrptr, char 
*strptr, size_t len); 


KE: SAME 


针 ， 若 出 错 则 为 NULL 


这 两 个 函数 的 fomily 参 数 既 可 以 是 AF_INET， 也 可 以 是 
AF_INET6。 如果 以 不 被 支持 的 地 址 族 作 为 family 参 数 ， 这 两 个 画 数 就 
都 返回 一 个 错误 ， 并 将 errno 置 为 EAFNOSUPPORT ° 


第 一 个 函数 答 试 转换 由 strptr 指 针 所 指 的 字符 串 ， 并 通过 addrptr 指 
针 存 放 二 进 制 结果 。 硅 成 功 则 返回 值 为 1， 否 则 如 果 对 所 指定 的 family 
而 言 输入 的 字符 串 不 定 有 效 的 表达 格式 ， 那 么 返回 值 为 0。 


inet_ntop 进 行 相反 的 转换 ， 从 数值 格式 (addrptr) 转换 到 表达 
格式 (strptr) 。len 参 数 是 目标 存储 单元 的 大 小 ， 以 免 该 函数 洪 出 其 调 
用 者 的 缓冲 区 。 为 有 助 于 指定 这 个 大 小 ， 在 <netinet/in.h> 头 文件 
中 有 如 下 定义 : 


#define INET_ADDRSTRLEN 16 /* for IPv4 dotted-decimal 


*/ 


#define INET6_ADDRSTRLEN 46 /* for IPv6 hex string */ 


如 果 ien 太 小 ， 不 足以 容纳 表达 格式 结果 (包括 结尾 的 空 字符 ) , 
那么 返回 一 个 空 指针 , 并 置 errno 为 ENOSPC 。 


inet_ntop 辑 效 的 strptr 参 数 个 可 以 征 一 个 至 指针 。 调 用 者 必须 
为 目标 存储 单元 分 配 内 存 并 指定 其 大 小 。 调 用 成 功 时 ， 这 个 指针 就 十 
该 琅 数 的 返回 值 。 


图 3-11 总 结 了 这 一 节 和 上 一 节 中 我 们 讨论 过 的 5 个 函数 。 
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图 3-11 地址 转换 函数 小 结 
示例 


即使 你 的 系统 还 不 支持 IPv6， 你 也 可 以 采取 下 列 措施 开始 使 用 这 
FOIE, BURA TAS 


代替 代码 


再 用 代码 


char str[INET ADDRSTRLEN]; 


ptr = inet ntop(AF INET, &foo.sin addr, str, sizeof(str)); 


代替 代码 


ptr = inet ntoa(foo.sin addr); 


图 3-12 给 出 了 只 支持 IPv4 的 inet_pton 函 数 的 简单 定义 。 类 似 
地 ， 图 3-13 给 出 了 只 支持 IPv4 的 inet_ntop 画 数 的 简化 版 本 。 


l'bfree^me! ptor. ipy4.c 


10 int 
11 inet pton[int family, const char *strpt-, void *addrpt-) 
12 | 


15 if (farily -- AP INET) { 

14 struct in_addr in val; 

15 if ‘inet_atonistrptr, &in val!) ( 

16 memcpy(add-ptr, &in val, sizeof(struct in_addr!) 
17 return /1); 

16 

19 return (0) ; 

20 

21 errno = BAPNOSUPPORT; 

22 return ;--!; 


libfreefine! ptor. ipyd.c 


Yt 


图 3-12” 仪 支持 IPv4 的 jnet_pton 简 化 版 本 


€ const char + 
2 inct ntop;in- family, const void *addrstr, char 


10 | 
11 
12 
13 


14 
15 
16 
17 
18 
19 
20 
21 


a 
D 
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const u_char “p = (const u_char *) addrptz; 
if (family zm AF_TNRT) | 
char terp [INET ADDRSTRLEN]; 


l'bfree^net. mop ipys.c 


*strptr, s3-ze t len! 


snprinLf(tenp, sizeof (temp), "2d. $d. 8d.54°, c: [0]. pli), pI2], p(31): 


if (etrlien(temp) >= len) ( 
e-zrnz = ENOSHC; 
return [NULLI ; 
} 
strcpv(strrtr, temp): 
return [strptr!; 
1 
errno = EAPNCSUPEORT; 
return (NULL): 


E3313 ” 仅 支 持 IPv4 的 inet_ntop 简 化 版 本 


libfree'inet ntop ipva.c 


38 sock_ntop 和 相关 函数 


inet_ntop 的 一 个 基本 问题 是 : 它 要 求 调用 者 传递 一 个 指向 某 个 
二 进 制 地 址 的 指针 ， 而 该 地 址 通常 包含 在 一 个 依 接 字 地 址 结构 中 ， 这 
忠 要 求 调 用 者 必须 知道 这 个 结构 的 格式 和 地 址 族 。 这 束 是 说 ， 为 了 使 
用 这 个 函数 ， 我 们 必须 为 IPv4 编 写 如 下 代码 : 


struct sockaddr_in addr; 


inet_ntop(AF_INET, &addr.sin_addr, str, sizeof(str)); 
或 为 IPV6 编 写 如 下 代码 : 


struct sockaddr in6 addr6; 
inet ntop(AF INET6, &addr6.sin6 addr, str, sizeof(str)); 


这 束 使 得 我 们 的 代码 与 协议 相关 了 。 


为 了 解决 这 个 问题 ， 我 们 将 自行 编写 一 个 名 为 sock_ntop 的 函 
数 ， 它 以 指 回 某 个 套 接 字 地 址 结构 的 指针 为 参数 ， 查 看 该 结构 的 内 
部 ， 然 后 调用 适当 的 函数 返回 该 地 址 的 表达 格式 。 
#include "unp.h" 


char *sock_ntop(const struct sockaddr *sockaddr, socklen_t 
addrlen); 


返回 : ERINI 


kr. BWJ7jNULL 


这 就 是 本 书 通 篇 使 用 的 我 们 自己 定义 的 函数 〈 非 标准 系统 函数 ) 
的 说 明 形 式 : 包围 函数 原型 和 返回 值 的 方 框 是 虚线 。 开 头 包 括 的 头 文 
件 通常 是 我 们 目 己 的 unp.h。 


sockaddr 指 癌 一 个 长 度 为 addrlen 的 套 接 字 地 址 结构 。 本 函数 用 它 
pro DOUETUSIUT. To 8 n] ARES T RETE E B 
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注意 ;对 结果 进行 静态 存储 导致 该 函数 不 可 重 入 且 非 线程 安全 。 
这 些 概念 我 们 将 在 11.18 下 中 进一步 讨论 。 对 于 该 函数 我 们 作 这 样 的 设 
计 决 策 是 为 了 让 本 书 中 的 简单 例 子 方便 地 调用 它 。 


表达 格式 就 是 在 一 个 IPv4 地 址 的 点 分 十 进 制 数 串 格式 之 后 ， 或 者 
在 一 个 括 以 方 括号 的 IPv6 地 址 的 十 六 进 制 数 串 格式 之 后 ， 跟 一 个 终止 
^ (我 们 使 用 一 个 分 号 ， 类 似 于 URL 语 法 ) ， 再 跟 一 个 十 进 制 的 端口 
号 ， 最 后 跟 一 个 空 字符 。 因 此 ， 缓 冲 区 大 小 对 于 IPv4 至 少 为 
INET_ADDRSTRLEN 加 上 6 个 字 节 (16+6=22) ， 对 于 IPv6 至 少 为 
INET6_ADDRSTRLEN 加 上 8 个 字 节 (46+8=54) ° 


图 3-14 中 我 们 给 出 了 该 函数 仅 为 AF_INET 情 形 下 的 源 代码 。 


libec’ ntop.c 


5 char * 
€ seck_ntcpfconst struct sockaddr *sa. socklen t salen! 
5 


£ char portstr (8) ; 


$ stetic char str[129]; /* Unix domain is largest */ 
10 Switch isa-»sa family) ( 

11 case AF IMET: | 

12 struct sockaddr in “sin = (struct sockaddr in *) 3a; 
13 if (inet ntop;AF IMET, &sin-»sir eccr, str, sizeof(stUr)) == NULL) 
14 return (NULL; ; 

15 if (ntohsisin->sin port) l= 0) | 

16 snprirtfiportstr, sizecf(portstr), ":à&3", 

17 ntchs (sin-»sin port)); 

18 Streat (str, pcrtstr); 

19 i 


20 return [str] ; 
1 


— libéscck. utope 


图 3-14 4d€fl]E Gi gsock ntopERZX 


我 们 还 为 操作 和 套 接 字 地 址 结构 定义 了 其 他 几 个 函数 ， 它 们 将 简化 
我 们 的 代码 在 IPv4 与 IPv6 之 间 的 移植 。 


#include "unp.h" 


int sock_bind_wild(int sockfd, int family); 


则 为 96， 若 出 错 则 为 -1 
int sock cmp addr(const struct sockaddr *sockaddri, 


返回 : TEN] 


const struct sockaddr *sockaddr2, socklen_t 


返回 : AEA ER ELTH 


addrlen); 


同 则 为 090， 否则 为 非 9 
int sock_cmp_port(const struct sockaddr *sockaddri, 
const struct sockaddr *sockaddr2, socklen_t 


返回 : 用 地址 为 同一 协议 族 且 端口 术 


addrlen); 


同 则 为 90， 否 则 为 非 9 
int sock_get_port(const struct sockaddr *sockaddr, socklen_t 
addrlen); 


返回 : 若 为 TPv4 或 TPv6 地 址 则 为 非 
负 端 口号 ， 否 则 为 -1 
char *sock_ntop_host(const struct sockaddr *sockaddr, socklen_t 
addrlen); 


H 


: 若 成 功 则 为 非 空 指 


返 


针 ， 若 出 错 则 为 NULL 


void sock_set_addr(const struct sockaddr *sockaddr, socklen_t 
addrlen, void *ptr); 


void sock set port(const struct sockaddr *sockaddr, socklen t 
addrlen, int port); 


void sock set wild(struct sockaddr *sockaddr, socklen t addrlen); 


sock_bind_wil1d 将 通 配 地 址 和 一 个 临时 端口 捆绑 到 一 个 套 接 
字 。sock_cmp_addr 比 较 两 个 套 接 字 地 址 结构 的 地 址 部 分 ; 
sock_cmp_port 则 比较 两 个 套 接 字 地 址 结构 的 端口 号 部 分 。 
sock_get_port 只 返回 端口 号 。sock_ntop_host 把 一 个 套 接 字 地 
址 结构 中 的 主机 部 分 转换 成 表达 格式 〈 不 包括 端口 号 ) 。 
sock_set_addr 把 一 个 套 接 字 地 址 结构 中 的 地 址 部 分 置 为 ptr 指 针 所 
指 的 值 ，sock_set_port 则 只 设置 一 个 套 接 字 地 址 结构 的 端口 号 音 
分 。sock_set_wild 把 一 个 套 接 字 地 址 结构 中 的 地 址 部 分 置 为 通 配 
地 址 。 跟 本 书 所 有 函数 一 样 ， 我 们 也 为 那些 返回 值 不 是 void 的 上 述 画 
数 提供 了 包 于 函数， 它们 的 名 字 以 S 开 头 ， 我 们 的 程序 通常 调用 这 些 
和 不 过 它们 是 免费 可 得 

J CURIS) ° 
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字 节 流 套 接 字 COWAUITCPESEE) 上 的 read 和 write 函数 所 表现 
的 行为 不 同 于 通常 的 文件 1O。 字 节 流 套 接 字 上 调用 read 或 write 输 
入 或 输出 的 字 节 数 可 能 比 请 求 的 数量 少 ， 然 而 这 不 是 出 错 的 状态 。 这 
个 现象 的 原因 在 于 内 核 中 用 于 套 接 字 的 缓冲 区 可 能 已 达到 了 极限 。 此 
时 所 需 的 是 调用 者 再 次 调用 read 或 write 函 数 ， 以 输入 或 输出 和 镜 余 的 
字 节 。 有 些 版 本 的 Unix 在 往 一 个 管道 中 写 多 于 4096 字 节 的 数据 时 也 会 
表现 出 这 样 的 行为 。 这 个 现象 在 read 一 个 字 节 流 套 接 字 时 很 常见 ， 但 
是 在 write 一 个 字 闻 流 套 接 字 时 只 能 在 该 套 接 字 为 非 阻 塞 的 前 提 下 才 
出 现 。 尽 管 如 此 ， 为 预防 万 一 ， 不 让 实现 返回 一 个 不 足 的 字 节 计数 
值 ， 我 们 总 是 改 为 调用 writen 函 数 来 取代 write 函 数 。 


我 们 提供 的 以 下 3 个 函数 是 每 当 我 们 读 或 写 一 个 字 节 流 套 接 字 时 总 
要 使 用 的 函数 。 


#include "unp.h" 


ssize t readn(int filedes, void *buff, size t nbytes); 


ssize t written(int filedes, const void *buff, size t nbytes); 


ssize t readline(int filedes, void *buff, size t maxlen); 


HRE: 读 或 写 的 字 
节 数 ， 春 出错 则 为 -1 


图 3-15 给 出 了 readn 画 数 ， 图 3-16 给 出 了 人 writen 画 数 ， 图 3-17 给 
出 了 readline 函 数 。 


j> Read "re bytes from a descrip.or, ^/ 


fd, ptr, nleft}) < ù) ， 


/* end call readi} again */ 


/* BOF */ 


zz return >a 1 */ 


图 3-15 readnENZK: 从 一 个 描述 符 读 n 字 节 


/* Write "n" pyces to a deccrictor. +; 


itetfd, ptr, meft)) es o f 
C && errno == EINTR) 
C:  /* and call write() again */ 


J* error 4/ 


1 include "unp.h* 

2 ssize 上 

3 readn[in- fd, void *vptr, size = n) 
4 1 

5 eise = nleft; 

€ s3ize t nrzad; 

5 caar "ptr; 

Li prr = vptr; 

e nleft = n; 

19 waile inleft > 0) { 

a1 i* ( (nraad = read( 
12 ii (erenc == DINTR; 
13 nrsad - 2, 
14 else 

15 returní-1): 
16 ) eise -£ (nread == 0) 
17 break; 

18 nlctt = nrcad; 

19 ptr += nread; 

2 } 

21 retLarnin - nleft); 

22 | 

1 H:nchide "unp."* 

2 soize t 

3 writen(int fd, const void *vptr,. size - 1) 
41 

5 size t cleft; 

6 coizc t nwritten; 

7 const char *p-r; 

8 ptr - vptr; 

s nleft = r; 

16 while (nlctt > 0) { 

11 if i Inwritternr = wa 
12 if (nwritter < 
13 nwritten = 
14 elec 

15 re-urn(-1) ; 
16 } 

17 "T2f- -a nwritten; 
16 rtr += nwritten; 

19 } 

20 return (n) ; 

21 ) 


图 3-16 writen: 往 一 个 描述 符 写 n 字 节 


lib/readn.c 


libzreudii 


lib^writen.c 


Fi writer. 


tesV/readlinel.c 


1 #inelude "urp.h" 
2 /* PAINFULLY SLOW VERSION -- example only */ 
3 ssize t 


4 readline(int fd, void *vpzr. size t maxlen! 

Eo | 

6 ssize t a, rc; 

7 char c, *ptr: 

8 ptr - vptr; 

E for (n = 1; n < maxlen; ne-) ( 

10 again: 

11 if | irc ~ resd(fd, uc, lIi) -- 1) { 

lz ^pzrtt = C; 

1i if ic =a "\r') 

14 areak; /* mewline is scored, like fgets() */ 
is ) alse if (re ==- C) * 

16 ‘pir = 0: 

Li recum(n - 1); /* BOF, n - l bytes were read */ 
16 j alse | 

19 it (errno == EINTS) 

20 woo again; 

21 return(-1); /* error, errno set bv rcaa(! */ 
22 ) 

23 ) 

24 ‘ptr = 0; f* cull terrinace like foets() */ 
25 return (ín): 

26 } 


tesireadline?.: 


图 3-17 readline 函 数 ， 从 一 个 描述 符 读 文 本 行 ， 一 次 1 个 字 节 

上 上述 三 个 函数 查找 EINTR 错 误 (表示 系统 调用 被 一 个 捕获 的 信号 
中 断 ， 我 们 将 在 5.9 节 中 更 详细 地 讨论 ) ， 如 果 发 生 该 错误 则 继续 进行 
读 或 写 操作 。 既 然 这 些 函 数 的 作用 是 避免 让 调用 者 来 处 理 不 足 的 字 节 
计数 值 ， 那 么 我 们 就 地 处 理 该 错误 ， 而 不 是 强迫 调用 者 再 次 调用 
readniiwritenERZW e 


在 14.3 节 我 们 会 提 到 ，MSG_WAITALL 标 志 可 随 recv 函 数 一 起 使 
用 来 取代 独立 的 readn 函 数 。 


注意 ， 这 个 readline 画 数 每 读 一 个 字 节 的 数据 就 调用 一 次 系统 
的 read 画 数 。 这 是 非常 低 效率 的 ， 为 此 我 们 特意 在 代码 中 注 
明 <PAINFULLY SLOW (极端 地 慢 ) ”。 当 面临 从 某 个 套 接 字 读 入 文本 
行 这 一 需求 时 ， 改 用 标准 MO 画 数 库 ( 称 为 stdio) 相当 诱 人 。 我 们 将 在 
14.8 节 中 详细 讨论 这 种 方法 ， 不 过 预先 指出 这 是 种 危险 的 方法 。 解 决 


本 性 能 问题 的 stdio 绥 冲 机 制 却 引 发 许多 后 勤 问 题 ， 可 能 导致 在 应 用 程 
序 中 存在 相当 隐蔽 的 缺陷 。 究 其 原因 在 于 stdio 绥 冲 区 的 状态 是 不 可 见 
的 。 为 便于 深入 解释 ， 让 我 们 考虑 客户 和 服务 器 之 间 的 一 个 基于 文本 
行 的 协议 ， 而 使 用 该 协议 的 多 个 客户 程序 和 服务 器 程序 可 能 是 在 一 段 
时 间 内 先后 实现 的 〈 这 种 情形 其 实 相 当 普 遍 ， 举 例 来 说 ， 按 照 HTTP 规 
范 独 立 编写 的 Web 浏览 器 程序 和 Web 服 务 器 程序 就 相当 之 多 ) 。 和 良好 
的 防御 性 编程 (defensive programming) 技术 要 求 这 些 程序 不 仅 能 够 期 
望 它 们 的 对 端 程序 也 遵循 相同 的 网 络 协 议 ， 而 且 能 够 检查 出 未 预期 的 
网 络 数据 传送 并 加 以 修正 (恶意 企图 自然 也 被 检查 出 来 ) ， 这 样 使 得 
网 络 应 用 能 够 从 存在 问题 的 网 络 数据 传送 中 恢复 ， 可 能 的 话 还 会 继续 
工作 。 为 了 提升 性 能 而 使 用 stdio 来 缓冲 数据 违背 了 这 些 目 标 ， 因 为 这 
i is > i 进程 在 任何 时 刻 都 没有 办 法 分 辨 stdio 绥 冲 区 中 是 否 持 有 末 预 
期 的 效 据 。 


基于 文本 行 的 网 络 协议 相当 多 ， 壁 如 SMTP、HTTP、FTP 的 控制 
连接 协议 以 及 finger 等 。 因 此 针对 文本 行 操 作 这 一 需求 一 再 被 提出 。 然 
而 我 们 的 建议 是 依照 缓冲 区 而 不 是 文本 行 的 要 求 来 考虑 编程 。 编 写 从 
i a 当期 待 一 个 文本 行 时 ， 就 查看 缓冲 区 中 是 
G5 835—117 * 


图 3-18 给 出 了 readline 函 数 的 一 个 较 快速 版 本 ， 它 使 用 自己 的 
而 不 是 stdio 提 供 的 缓冲 机 制 。 其 中 重要 的 是 readline 内 部 缓冲 区 的 
状态 是 暴露 的 ， 这 使 得 调用 者 能 够 查看 缓冲 区 中 到 底 收 到 了 什么 。 即 
使 使 用 这 个 特性 ，readlLine 仍 可 能 存在 问题 ， 具 体 见 6.3 节 。 诸 如 
select 等 系统 函数 仍然 不 可 能 知道 read1Line 使 用 的 内 部 缓冲 区 ， 
此 编写 不 严谨 的 程序 很 可 能 发 现 上 自己 在 select 上 等 竺 的 数据 早已 收 
到 并 存放 在 readline 的 缓冲 区 中 了 。 由 于 这 个 原因 ， 混 合 调 用 
readn 和 readline 不 会 像 预 期 的 那样 工作 ， 除 非 把 readn 修 改 成 也 
仿 查 该 内 部 缓冲 区 。 


lib/readline.c 
+ #include "unp.h* 


2 grazic int raad ont; 
3 static char *read p-r; 
4 wa pu char read luf (MAXT.TNE) : 


5 static ssizc t 
6 my read(int fd, char *rtr) 
$1 


8 if lreaz snt «- 0) ( 

9 again: 

10 i£ ( (read ent =- reai[fd, read buf, sizeof(resd buf))) < 0) | 
li if (errno — ELITR) 

12 goto again; 

13 returr.(-1); 

14 } clac it [read_cn= == 0) 

15 ret. arc (0); 

16 read ptr = resd_ buf; 

17 } 

13 read cnt--; 

19 *ptr = rraad ptre*; 

20 recurn/1]; 

21 } 

22 ssizs t 

23 rcadlirclint td, void *vptr, sizco t maxicn) 
24 ( 

25 seize t n, rc; 


26 char c, “ptr; 


27 ptr = vptr: 

2a far in = 3; n < max1len; r9) ( 

29 i= ( (rc = mv xead(fd, &c;) == 1) 1 

50 *rtr-* = c; 

E ze (c == 'An*) 

32 break; /* newline is stored, like fgets() */ 
33 ) else if (re == oy { 

34 ptr = OF 

35 returrí(n - 1b; /* BOP, n - 1 bytes were read */ 
36 ) eise 

37 returr(-1); /* error, errno set by read() */ 
3a ) 

59 *ptr = 23; /* null terminate like fgets() */ 
40 return/n); 

41 } 

42 ooizc t 

43 readlirebuf (void **vpt-prr) 

44a f 

45 i= (read -nt| 

46 *vpcrptr = reed ptr; 

47 return/read cnt); 

48 } 


Jibireaaliae.c 
图 3-18 ” readline 函 数 的 改进 版 


2-21 内 部 函数 my_read 每 次 最 多 读 MAXLINE 个 字符 ， 然 后 每 
次 返回 一 个 字符 。 


29 readline 函 数 本 号 的 唯一 变化 是 用 my_read 调 用 取代 
read » 


42-48 readlinebuf 这 个 新 函数 能 够 展露 内 部 缓冲 区 的 状 
态 ， 便 于 调用 者 查看 在 当前 文本 行 之 后 是 否 收 到 了 新 的 数据 。 


但 是 ， 在 readline,c 中 使 用 静态 变量 实现 跨 相继 函数 调用 的 状 
仿 信 息 维护 ， 其 结果 是 这 些 钞 数 变 得 不 可 重 入 或 者 说 非 线程 安全 了 。 
我 们 将 在 11.18 世 和 26.5 世 中 讨论 这 一 点 。 在 图 26-11 中 我 们 将 使 用 特定 
于 线程 的 数据 开发 一 个 线程 安全 的 版 本 。 


3.10 “人 小结 


套 接 字 地 址 结构 是 每 个 网 络 程序 的 重要 组 成 部 分 。 我 们 分 配 它 
们 ， 填 写 它们 ， 把 指向 它们 的 指针 传递 给 各 个 套 接 字 函数 。 有 时 我 们 
把 指 同 这 些 结构 之 一 的 指针 传递 给 一 个 套 接 字 函数 ， 并 由 该 函数 填写 
结构 内 容 。 我 们 总 是 以 引用 形式 来 传递 这 些 结构 (也 就 是 说 ， 我 们 传 
递 的 是 指 问 结构 的 指针 ， 而 不 是 结构 本 身 ) ， 而 且 将 结构 的 大 小 作为 
男 外 一 个 参数 来 传递 。 当 一 个 套 接 字 函数 需要 填写 一 个 结构 时 ， 该 结 
构 的 长 度 也 以 引用 形式 传递 ， 这 样 它 的 值 也 可 以 被 男 数 更 改 。 我 们 把 
这 样 的 参数 称 为 值 一 结果 参数 。 


套 接 字 地 址 结构 是 目 定义 的 ， 因 为 它们 总 是 以 一 个 标识 其 中 所 合 
地 址 之 协议 族 的 字段 开头 。 文 持 长 度 可 变 套 接 字 地 址 结构 的 较 新 实现 
在 开头 还 包含 一 个 长 度 字 段 ， 它 舍 有 整个 结构 的 长 度 信息 。 


在 表达 格式 《我 们 平时 书写 的 格式 ， 例 如 ASCII 字 符 串 ) 和 数值 
格式 (存放 到 套 接 字 地 址 结构 中 的 格式 ) 之 间 转 换 IP 地 址 的 两 个 函数 
是 inet_pton 和 :jinet_ntop。 虽 然 我 们 将 在 稍 后 的 章节 中 使 用 这 两 
个 函数 ， 但 是 必须 说 明 ， 它 们 是 协议 相关 的 。 操 纵 套 接 字 地 址 结构 的 
更 好 方法 是 把 它们 作为 不 透明 对 象 ， 仪 知道 指向 结构 的 指针 和 结构 的 
大 小 而 已 。 按 照 这 种 方法 ， 我 们 开发 了 一 组 名 字 以 sock_ 开 头 的 函 
数 ， 协 助 实现 程序 的 协议 无 关 性 。 我 们 将 在 第 11 章 中 使 用 
getaddrinfo 和 getnameinfo 函 数 完成 这 套 协 议 无 关 工具 的 开发 。 


TCP 套 接 字 为 应 用 进程 提供 了 一 个 字 节 流 ， 它 们 没有 记录 标记 。 
从 TCP 套 接 字 read 的 返回 值 可 能 比 我 们 请 求 的 数量 少 ， 但 是 这 不 表示 
发 生 了 错误 。 为 帮助 读 或 写 一 个 字 节 流 ， 我 们 开发 了 readn、 
writen 和 read1ine 这 3 个 函数 ， 并 在 全 书 中 广泛 使 用 。 对 于 文本 行 
交互 的 应 用 来 说 ， 程 序 应 该 按照 操作 缓冲 区 而 非 按 照 操 作文 本 行 来 编 
写 。 


习题 


3.1 为 什么 诸如 套 接 字 地 址 结构 的 长 度 之 类 的 值 - 结 采 参数 要 用 
ETRIE? 


32 为 什么 readn 和 writen 函 数 都 将 void * 型 指针 转换 为 
char * 型 指针 ? 


33 inet_aton 和 inet_addr 了 函数 对 于 接受 什么 作为 点 分 十 进 
制 数 IPv4 地 址 串 一 直 相 当 随 意 : 允许 由 小 数 点 分 隔 的 1~4 个 数 ， 也 人 允 
许 由 一 个 前 导 的 0x 来 指定 一 个 十 六 进 制 数 ， 还 允许 由 一 个 前 导 的 6 来 
指定 一 个 八进制 数 。 (党 试 运行 telnet 0xe 来 检验 一 下 这 些 特 
性 。) inet_pton 函 数 对 IPv4 地 址 的 要 求 却 严 格 得 多 ， 明 确 要 求 用 三 
个 小 数 点 来 分 隔 四 个 在 0~255 之 间 的 十 进 制 数 。 当 指定 地 址 族 为 
AF_INET6H 时 ，inet_pton 不 允许 指定 点 分 十 进 制 数 地 址 ， 不 过 有 人 
可 能 争辩 说 应 该 多 许 ， 返 回 值 就 是 对 应 这 个 点 分 十 进 制 数 串 的 IPv4 映 
里 的 IPv6 地 址 ( 见 图 A-10) ° 


试 写 一 个 名 为 jnet_pton_loose 的 函数 ， 它 能 处 理 如 下 情形 : 
如 果 地 址 族 为 AF_INET 且 inet_pton 返 回 0， 那 就 调用 inet_aton 看 
是 否 成 功 ; 类 似 地 ， 如 果 地 址 族 为 AF_INET6 且 inet_pton 返 回 0， 
那 就 调用 inet_aton 看 是 否 成功 ， 若 成 功 则 返回 其 IPv4 映 射 的 IPv6 地 
址 。 
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本 章 讲 解 编写 一 个 完整 的 TCP 客 户 / 服 务 右 程序 所 需要 的 基本 套 接 
字 函 数 。 讲 解 完 即将 使 用 的 所 有 基本 套 接 字 函数 之 后 ， 我 们 束 在 下 一 
章 中 开发 这 个 客户 /服务 器 程 序 。 我 们 将 围绕 该 客户 /服务 器 程序 展开 
本 书 ， 并 多 次 对 它 加 以 改进 (图 1-12 和 图 1-13) ° 


我 们 还 讲解 并 发 服务 器 ， 它 是 在 同时 有 大 量 的 客户 连接 到 同一 服 
务 器 上 时 用 于 提供 并 发 性 的 一 种 常用 Unix 技 术 。 每 个 客户 连接 都 迫使 
服务 器 为 它 派生 (fork) 一 个 新 的 进程 。 本 章 中 我 们 只 考虑 使 用 
fork 实 施 的 每 客户 单 进程 模型 ， 然 而 当 在 第 26 章 讨论 线程 时 ， 我 们 将 
考虑 称 为 每 客户 单线 程 的 另外 一 种 模型 。 


图 4-1 给 出 了 在 一 对 TCP 客 户 与 服务 器 进程 之 间 发 生 的 一 些 典 型 事 
件 的 时 间 表 。 服 务 器 首先 启动 ， 稍 后 某 个 时 刻 客 尸 启动 ， 它 试图 连接 
到 服务 器 。 我 们 假设 客户 给 服务 器 发 送 一 个 请 求 ， 服 务 器 处 理 该 请 
求 ， 并 且 给 客户 发 回 一 个 啊 应 。 这 个 过 程 一 直 持 续 下 去 ， 直 到 客户 天 
闭 连 接 的 客户 端 ， 从 而 给 服务 器 发 送 一 个 EOF (文件 结束 ) 通知 为 
E RNC SMESM METUIT 
ETa ° 
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socket {1 


ARAN Em H bind{) 


ihe 


listen(! 
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py HST S EAE 
nin n 
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m 
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réad(} 


close {} | 


图 4-1 基本 TCP 客 户 / 服 务 器 程序 的 套 接 字 函数 
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为 了 执行 网 络 WO， 一 个 进程 必须 做 的 第 一 件 事 情 就 是 调用 
socket 了 函数， 指定 期 望 的 通信 协议 类 型 (使 用 IPv4 的 TCP、 使 用 IPV6 
的 UDP、Unix 域 字 节 流 协 议 等 ) 。 


#include <sys/socket.h> 
int socket(int family, int type, int protocol); 


返回 : 若 成 功 则 为 非 负 描 
述 符 ， 若 出 错 则 为 -1 


其 中 family 参数 指明 协议 族 ， 它 是 图 4-2 中 所 示 的 某 个 浓 值 。 该 参 
数 也 往往 被 称 为 协议 域 。type 参 数 指明 套 接 字 类 型 ， 它 是 图 4-3 中 所 示 
的 某 个 常 值 。protocol 参 数 应 设 为 图 4-4 所 示 的 某 个 协议 类 型 常 值 ， 或 
者 设 为 0， 以 选择 所 给 定 family 和 type 组 合 的 系统 默认 值 。 


IPv4 协 议 
IPv6 协 议 


Unix 域 协议 【 见 第 15 章 ) 
路 由 套 接 字 【 见 第 18 章 ) 
密 钥 套 接 字 《【 见 第 19 章 ) 


图 4-2 socket ACh family? (& 


SOCK STREAM 字 节 流 套 接 字 


SOCK DGRAM 数据 报 套 按 字 
SOCK_SEOPRCKET 有 序 分 组 套 接 字 
SOCK_RAW 原始 套 接 字 


图 4-3 socket WANA type’ (A 


IPPROTO_TCP TCP 传 输 协 议 
IPPROTO UDP UDP 传 输 协 议 
TPPROTO SCTP SCTP 传 输 协 议 


图 4-4 ”socket 函 数 AF_INET 或 AF_INET6 的 protocol 常 值 


并 非 所 有 套 接 字 family 与 type 的 组 合 都 是 有 效 的 ， 图 4-5 给 出 了 一 些 
有 效 的 组 合 和 对 应 的 真正 协议 。 其 中 标 为 是 ”的 项 也 是 有 效 的 ， 但 还 
没有 找到 便捷 的 缩 略 词 。 而 空白 项 则 是 无 效 组 合 。 


AF INET AF INETE AF LOCAL AP ROUTE 
OCK_STREAM wmm [m [| & | | — 
"owe Lowe [ wes | * | | 3L. 


SOCK SEQPACK3T 


SOCK RAW 


图 4-5 socket AU family#ltypeF MHZ G 


你 可 能 还 会 页 到 作为 socket HA — TE BAAR DY APF _xxx fib 
值 ， 我 们 在 本 节 末 讲述 。 


你 也 许 会 碰 到 AF_LOCAL (POSIX 名 称 ) 被 代 之 为 AF_UNIX (5 
史上 的 Unix 域 名 称 ) ， 在 第 15 章 中 我 们 再 做 详细 说 明 。 


参数 /omily 和 type 还 有 其 他 值 。 例 如 4.4BSD 文 持 的 family 参 数值 还 
有 AF_NS (Xerox NS 协议 ， 常 称 为 XNS) 和 AF_ISO (OSI 协 议 ) ， 不 


过 现在 很 少 有 人 使 用 这 些 协议 。Xerox NS 协议 和 OSI 协议 都 实现 了 对 

SOCK_SEQPACKET 这 个 type 参 数值 的 支持 ， 我 们 将 在 9.2 节 讲解 该 值 在 
SCTP 中 的 使 用 。 然 而 TCP 是 一 个 字 节 流 协 议 ， 仪 支持 SOCK_STREAM 

套 接 字 。 


Linux 支 持 一 个 新 的 套 接 字 类 型 SOCK_PACKET， 它 与 图 2-1 中 的 
BPF 和 DLPI 类 似 ， 文 持 对 数据 链 路 的 访问 ， 具 体 将 在 第 29 章 中 叙述 。 


密 钥 套 接 字 AF_KEY 比 较 新 ， 用 于 文 持 基 于 加 密 的 安全 性 。 跟 路 
HERF (AF_ROUTE) 是 内 核 中 路 由 表 的 接口 这 种 方式 类 似 ， 密 钥 
套 接 字 是 与 内 核 中 密 钥 表 的 接口 。 密 钥 套 接 字 在 第 19 章 中 讲解 。 
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socket 函数 在 成 功 时 返回 一 个 小 的 非 负 整数 值 ， 它 与 文件 描述 
符 类 似 ， 我 们 把 它 称 为 套 接 字 描 述 符 (socket descriptor) , fa PK 
sockfd。 为 了 得 到 这 个 套 接 字 描 述 符 ， 我 们 只 是 指定 了 协议 族 
(IPv4 ` IPv6SXUnix) 和 套 接 字 类 型 ( 字 市 流 、 数 据 报 或 原始 套 接 
字 ) 。 我 们 并 没有 指定 本 地 协议 地 址 或 远程 协议 地 址 。 


XT EAF _xxx 和 PF xxx 


AF 前 级 表示 地 址 族 ，PF_ 前 级 表示 协议 族 。 历 史上 曾 有 这 样 的 
想法 : 单个 协议 族 可 以 支持 多 个 地 址 族 ，PF_ 值 用 来 创建 套 接 字 ， 而 
AF_ 值 用 于 套 接 字 地 址 结构 。 但 实际 上 ， 支 持 多 个 地 址 族 的 协议 族 从 
来 承 未 实现 过 ， 而 且 头 文件 <sys/socket .h> 中 为 一 给 定 协 议定 义 的 
PF_ 值 总 是 与 此 协议 的 AF_ 值 相等 。 尽 管 这 种 相等 关系 并 不 一 定 永远 
成 立 ， 但 若 有 人 试图 给 已 有 的 协议 改变 这 种 约定 ， 则 许多 现存 代码 都 
将 朋 演 。 为 与 现存 代码 保持 一 致 ， 本 书 中 我 们 仅 使 用 AF_ 常 值 ， 尽 管 

(主要 是 ) 在 调用 socket 时 我 们 可 能 会 碰 到 PF_ 值 。 


查看 BSD/OS 2.1 版 中 调用 socket 的 137 个 程序 ， 可 以 发 现 ， 有 
143 个 调用 指定 AF_ 值 ， 仅 有 8 个 调用 指定 PF_ 值 。 


从 历史 上 说 ，AF_ 前缀 与 PF_ 前 级 具有 相似 常 值 集 的 原因 要 追 济 
到 4.1cBSD [Lanciani 1996] 和 比 我 们 正 讲述 的 〈 随 4.2BSD 出 现 的 ) 
socket 函 数 早 些 的 一 个 版 本 。socket 函 数 的 4.1cCBSD 版 本 采用 了 四 
个 参数 ， 其 中 有 一 个 是 指向 sockproto 结 构 的 指针 。 该 结构 的 第 一 个 
成 员 名 为 sp_family， 它 的 值 是 某 个 PF_ 值 ， 第 二 个 成 员 即 
sp_protocol 是 一 个 协议 号 ， 与 现行 Socket 函 数 的 第 三 个 参数 相 
似 。 指 定 协 议 族 的 唯一 方法 就 是 指定 该 结构 ， 因 此 ， 在 这 个 早期 系统 
中 ，PF_ 值 用 来 在 sockproto 结 构 中 指定 协议 族 的 结构 标签 ， 而 AF_ 
值 用 来 在 套 接 字 地 址 结构 中 指定 地 址 族 的 结构 标签 。4.4BSD 中 仍 有 
sockproto 结 构 (TCPv2*$626—62731) ， 但 仅 由 内 核 在 内 部 使 用 。 
在 最 初 的 定义 中 ， 对 sp_family 成 员 有 “protocol family”( 协 议 族 ) 的 
注释 ， 在 4.4BSD 源 代码 中 已 改 为 “address family”( 地 址 族 ) 了 ° 


让 人 更 弄 不 清 AF_ 常 值 和 PF_ 常 值 之 区 别 的 是 ， 其 中 有 成 员 可 与 
socket 函 数 的 第 一 个 参数 作 比 较 的 Berkeley 内 核 数 据 结 构 (domain 
结构 的 dom_family 成 员 ，TCPv2 第 187 页 ) 有 这 样 的 注释 : ERA 
AF_ 值 。 尽 管 如 此 ， 内 核 中 有 些 domain 结 构 被 初始 化 为 相应 的 AF_ 值 

(TCPv2 第 192 页 ) ， 而 其 他 domain 结 构 则 被 初始 化 成 PF_ 值 
(TCPv2 第 646 页 和 TCPv3 第 229 页 ) ° 


作为 另 一 个 历史 注解 ，4.2BSD 中 socket 函 数 的 手册 页 面 (编写 
i ) 将 该 函数 的 第 一 个 参数 称 为 qf， 并 把 它 的 可 能 取 值 作为 
AF 常 值 列 出 。 


最 后 ， 我 们 指出 POSIX 规 范 指定 socket 函 数 的 第 一 个 参数 为 PF_ 
值 ， 而 AF_ 值 用 于 套 接 字 地 址 结构 。 然 而 它 在 addrinfo 结 构 (11.6 
T) 中 却 只 定义 了 一 个 族 值 ， 既 用 于 调用 socket 函 数 ， 也 用 于 套 接 
字 地 址 结构 中 ! 
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TCPZ H connect Hare sz STCPARA Ss P) ETE 。 


#include <sys/socket.h> 
int connect(int sockfd, const struct sockaddr *servaddr, socklen_t 
addrlen); 


返回 : 大 成 功 则 


为 0，， 寿 出 错 则 为 -1 


sockfd= H socket MAURER HRT, OSs BOTS 
DOA Ee is BRS MTSE AAAI A), 1803.35 Bf 
述 。 套 接 字 地 址 结构 必须 含有 服务 器 的 了 P 地 址 和 端口 号 。 我 们 已 在 图 
1-5 中 见 过 本 函数 的 一 个 例子 。 


客户 在 调用 函数 connect 前 不 必 非 得 调用 bind 函 数 我们 在 下 
TIAA) ， 因 为 如 果 需 要 的 话 ， 内 核 会 确定 源 PP 地 址 ， 并 选 
择 一 个 临时 端口 作为 源 端 口 。 


如 果 是 TCP 套 接 字 ， 调 用 connect 画 数 将 激发 TCP 的 三 路 握手 过 
(2.67) ， 而 且 仅 在 连接 建立 成 功 或 出 错时 才 返 回 ， 其 中 出 错 返 回 
可 能 有 以 下 几 种 情况 。 


(和 若 TCP 客 户 没 有 收 到 SYN 分 元 的 啊 应 ， 则 返回 ETIMEDOUT 错 

误 。 举 例 来 说 ， 调 用 connect 函 数 时 ，4.4BSD 内 核发 送 一 个 SYN， 若 
无 响应 则 等 等 6s 后 再 发 送 一 个 ， 若 仍 无 响应 则 等 待 24s 后 再 发 送 一 个 
(TCPv2 第 828 页 ) 。 若 总 共 等 了 75s 后 仍 未 收 到 响应 则 返回 本 错误 。 


有 些 系 统 提供 对 超时 值 的 管理 性 控制 ， 见 TCPv1 的 附录 E。 
(2) 若 对 客户 的 SYN 的 响应 是 RST (表示 复位 ) ， 则 表明 该 服务 器 
主机 在 我 们 指定 的 端口 上 没有 进程 在 等 待 与 之 连接 〈 例 如 服务 器 进程 


也 许 没 在 运行 ) 。 这 是 一 种 硬 错 误 (hard error) ， 客 户 一 接收 到 RST 
就 马上 返回 ECONNREFUSED 错 误 。 


RST 是 TCP 在 发 生 销 误 时 发 送 的 一 种 TCP 分 和 。 产 生 RST 的 三 个 条 
件 是 : 目的 地 为 某 端口 的 SYN 到 达 ， 然 而 该 端口 上 没有 正在 监听 的 服 
Sex 〈 如 前 所 述 ) ; TCP 想 取消 一 个 已 有 连接 ; TCP 接 收 到 一 个 根本 
不 存在 的 连接 上 的 分 节 。 (TCPv1 第 246~250 页 有 更 详细 的 信息 。) 


(3) 若 客户 发 出 的 SYN 在 中 间 的 某 个 路 由 器 上 引发 了 一 
个 “destination unreachable”( 目 的 地 不 可 达 ) ICMP 错 误 ， 则 认为 是 一 
种 软 错误 (soft error) 。 客 户主 机 内 核 保存 该 消息 ， 并 按 第 一 种 情况 
中 所 壕 的 时 间 间 隔 继 续 发 送 SYN。 若 在 某 个 规定 的 时 间 (4.4BSD 规 定 
75s) 后 仍 未 收 到 响应 ， 则 把 保存 的 消息 〈 即 ICMP 错 误 ) 作为 
EHOSTUNREACH 或 ENETUNREACH 错 误 返 回 给 进程 。 以 下 两 种 情形 也 
是 有 可 能 的 : 一 是 按照 本 地 系统 的 转发 表 ， 根 本 没有 到 达 远 程 系统 的 
路 径 ， 二 是 connect 调 用 根本 不 等 待 就 返回 。 


许多 早期 系统 ( 壁 如 4.2BSD) 在 收 到 “目的 地 不 可 达 ”ICMP 错 误 时 
会 不 正确 地 放弃 建立 连接 的 尝试 。 这 种 做 法 不 正确 是 因为 ICMP 错 误 可 
| 。 璧 如 说 ， 它 可 能 是 终究 可 以 修复 的 某 个 路 由 问 
题 引 起 的 。 


注意 ， 即 使 ICMP 错 误 指 示 目 的 网 络 不 可 达 ， 图 A-15 中 也 没有 列 出 


ENETUNREACH ° 网络 不 可 达 的 错误 被 认为 已 过 时 ， 应 用 进程 应 该 把 
ENETUNREACH 和 EHOSTUNREACH 作 为 相同 的 错误 对 待 。 


我 们 可 以 用 图 1-5 所 示 的 简单 客 尸 程 序 来 查看 这 些 不 同 的 出 错 情 


况 。 首 先 指定 本 地 主机 (127.0.0.1) ， 它 正在 运行 对 应 的 时 间 获 取 服 
务 圳 程序， 我 们 观察 正常 的 输出 : 


Sun Jul 27 22:01:51 2003 
为 了 查看 返回 啊 应 的 另 一 种 格式 ， 我 们 指定 另外 一 个 主机 的 卫 地 
址 (本 例 中 为 那个 HP-UX 主 机 的 IP 地 址 ) : 


Sun Jul 27 22:04:59 PDT 2003 
我 们 接着 指定 本 地 子 网 (192.168.1/24) 上 其 主机 ID (100) 并 不 
存在 的 一 个 IP 地 址 ， 也 就 是 说 本 地 子 网 上 没有 一 个 主机 ID 为 100 的 主 


机 ， 这 样 当 客户 主机 发 出 ARP 请 求 (要 求 那个 不 存在 的 主机 响应 以 其 
硬件 地 址 ) By, ERR ACU SI ARPHN : 


solaris % daytimetcpcli 192.168.1.100 
connect error: Connection timed out 


我 们 等 到 connect 函 数 超 时 后 (对 于 Solaris 9 约 为 4 分 钟 ) 才 得 
该 错误 。 留 意 我 们 的 err_sys 函 数 以 直观 可 读 的 字符 串 消息 显示 了 
ETIMEDOUT 错 误 的 含义 。 


下 一 个 例子 中 我 们 指定 一 个 没有 运行 时 间 获 取 服 务 硕 程序 的 主机 
(其 实 是 一 个 本 地 路 由 器 ) 。 


到 


solaris % daytimetcpcli 192.168.1.5 
connect error: Connection refused 
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最 后 一 个 例子 中 我 们 指定 一 个 因特网 中 不 可 到 达 的 IP 地 址 。 如 果 
我 们 用 tcpdump 观 察 分 组 的 情况 ， 就 会 发 现 6 跳 以 远 的 路 由 器 返回 了 
主机 不 可 达 的 ICMP 错 误 。 


solaris % daytimetcpcli 192.3.4.5 
connect error: No route to host 


跟 ETIMEDOUT 错 误 一 样 ， 本 例 中 的 connect 也 在 等 待 规定 的 一 
段 时 间 之 后 才 返 回 EHOSTUNREACH 错 误 。 


按照 TCP 状 态 转换 图 (图 2-4) , connect HARG gii e Base M 
CLOSED 状 态 (该 套 接 字 自 从 由 socket 函 数 创建 以 来 一 直 所 处 的 状 
2S) 转移 到 SYN_SENT 状 态 ， 若 成 功 则 再 转移 到 ESTABLISHED 状 
人 态 。 若 connect 失 败 则 该 套 接 字 不 再 可 用 ， 必 须 关 闭 ， 我 们 不 能 对 这 
样 的 套 接 字 再 次 调用 connect 函 数 。 在 图 11-10 中 我 们 将 看 到 ， 当 循环 
调用 函数 connect 为 给 定 主机 尝试 各 个 IP 地 址 直到 有 一 个 成 功 时 ， 在 
每 次 connect 失 败 后 ， 都 必须 close 当 前 的 套 接 字 描述 符 并 重新 调用 
socket ° 
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bjind 函 数 把 一 个 本 地 协议 地 址 赋予 一 个 套 接 字 。 对 于 网 际 网 协 
议 ， 协 议 地 址 是 32 位 的 IPv4 地 址 或 128 位 的 IPv6 地 址 与 16 位 的 TCP 或 
UDP 端口 号 的 组 合 。 


#include <sys/socket.h> 


int bind(int sockfd, const struct sockaddr *myaddr, socklen_t 
addrlen); 


返回 : TEN] 


则 为 0，， 若 出 错 则 为 -1 


历史 上 讲述 bind 函 数 的 手册 页 面 曾 说 “bind assigns a name to an 
unnamed socket (bind 函 数 为 一 个 无 名 的 套 接 字 命 名 ) ” ° TE 
用 “name” (名字 ) 一 词 易 于 让 人 混 消 ， 因 为 它 具 有 诸如 
foo .bar.com 之 类 域名 (第 11 章 ) WKN °- bindER ZR. SC 5 AE ix 
有 任何 关系 。 它 只 是 把 一 个 协议 地 址 赋予 一 个 套 接 字 ， 至 于 协议 地 址 
的 含义 则 取决 于 协议 本 身 。9 


第 二 个 参数 是 一 个 指 回 特定 于 协议 的 地 址 结构 的 指针 ， 第 三 个 参 
数 是 该 地 址 结构 的 长 度 。 对 于 TCP， 调 用 bind 画 数 可 以 指定 一 个 端口 
号 ， 或 指定 一 个 IP 地 址 ， 也 可 以 两 者 都 指定 ， 还 可 以 都 不 指定 。 


。 服务 器 在 启动 时 捆绑 它们 的 众所周知 端口 ， 我 们 在 图 1-9 中 已 看 到 
了 。 如 果 一 个 TCP 客 户 或 服务 器 未 曾 调用 bind 捆 绑 一 个 端口 ， 当 
调用 connect 或 listen 时 ， 内 核 束 要 为 相应 的 套 接 字 选择 一 个 
临时 端口 。 让 内 核 来 选择 临时 端口 对 于 TCP 客 户 来 说 是 正常 的 ， 
除非 应 用 需要 一 个 预 留 端口 (82-10) ; 然而 对 于 TCP 服 务 器 来 
ae , AA ARS aie a EAR HT Jd Alig ABC ACA 
WAY ° 
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这 个 规则 的 例外 是 远程 过 程 调 用 (Remote Procedure Call, RPC) 
服务 器 。 它 们 通常 就 由 内 核 为 它们 的 监听 确 接 字 选择 一 个 临时 端口 
而 该 端口 随后 通过 RPC 端 口 映 射 需 进行 注册 。 客 户 在 connect 这 些 服 


Har Z BU, UA hig BR ni A A RAE Na e ORL 
也 适用 于 使 用 UDP 的 RPC 服 务 器 。 


。 进程 可 以 把 一 个 特定 的 IP 地 址 捆绑 到 它 的 套 授 字 上 上 ， 不 过 这 个 IP 
地 址 必须 属于 其 所 在 主机 的 网 络 接 口 之 一 。 对 于 TCP 客 户 ， 这 就 
为 在 该 套 接 字 上 发 送 的 IP 数 据 报 指 派 了 源 IP 地 址 。 对 于 TCP 服 务 
器 ， 这 惑 限 定 该 套 接 字 只 接收 那些 目的 地 为 这 个 IP 地 址 的 客户 连 

ES 
TCP 窗 户 通 常 不 把 卫 地 址 捆绑 到 它 的 套 接 字 上 “。 当 连接 套 接 字 

上 时， 内 核 将 根据 所 用 外 出 网 络 接 口 来 选择 源 IP 地 址 ， 而 所 用 外 出 
接口 则 取决 于 到 达 服 务 器 所 需 的 路 径 〈TCPv2 第 737 页 ) ° 

如 果 TCP 服 务 器 没有 把 IP 地 址 捆绑 到 它 的 套 接 字 上 ， 内 核 就 把 客 
fo mM 目的 IP 地 址 作为 服务 器 的 源 IP 地 址 〈TCPv2 第 943 
ms 


正如 我 们 所 说 ， 调 用 bind 可 以 指定 IP 地 址 或 端口 ， 可 以 两 者 都 指 
定 ， 也 可 以 都 不 指定 。 图 4-6 汇 总 了 如 何 根 据 预 期 的 结果 ， 设 置 
sin_addr 和 sin_port 或 者 sin6_addr 和 sin6_port 的 值 。 


IP 地 址 * 

通 配 地 直 | 内 核 选择 IP 地 址 和 端口 

通 配 地 址 非 肉 核 选择 IP 地 址 ， 进 程 指 定 端口 
本 地 IP 地 址 进程 指定 由 地 址 ， 内 核 选择 端口 
Z Hh TP HE lk : 进程 指定 IP 地 引 和 端口 


图 4-6 ”给 bind 函 数 指定 要 捆绑 的 IP 地 址 和 /或 端口 号 产生 的 结果 


如 采 指 定 端口 号 为 0， 那 么 内 核 束 在 bind 被 调用 时 选择 一 个 临时 
端口 。 然 而 如 果 指 定 耻 地址 为 通 配 地 址 ， 那 么 内 核 将 等 到 套 接 字 已 连 
~ 或 已 在 套 接 字 上 发 出 数据 报 (UDP) 时 才 选 择 一 个 本 地 IP 


对 于 IPv4 来 说 ， 通 配 地 址 由 常 值 INADDR_ANY 来 指定 ， 其 值 一 般 
为 0。 它 告知 内 核 去 选择 了 地 址 。 我 们 已 在 图 1-9 中 随 如 下 赋值 语句 看 
到 过 它 的 使 用 : 


struct sockaddr_in servaddr; 


servaddr.sin addr.s addr - htonl(INADDR ANY); /* wildcard */ 
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如 此 赋值 对 IPv4 是 可 行 的 ， 因 为 其 JP 地 址 是 一 个 32 位 的 值 ， 可 以 
用 一 个 简单 的 数字 常 值 表示 〈 本 例 中 为 0) ， 对 于 IPv6， 我 们 就 不 能 这 
么 做 了 ， 因 为 128 位 的 IPv6 地 址 是 存放 在 一 个 结构 中 的 。 (在 C 语 言 
i o) 为 了 解决 这 个 问题 ， 我 们 
改写 为 : 


struct sockaddr_in6 serv; 


serv.sin6 addr = in6addr_any; /* wildcard */ 


系统 预先 分 配 in6addr_any 变 量 并 将 其 初始 化 为 常 值 
IN6ADDR ANY INIT ° 3X. X/fft«netinet/in.h»"P 4f 
in6addr_any 的 extern 声 明 。 


无 论 是 网 络 字 节 序 还 是 主机 字 节 序 ，INADDR_ANY 的 值 (230) 都 
一 样 ， 因 此 使 用 hton1 并 非 必需 。 不 过 既然 头 文件 <netinet/in.h> 
中 定义 的 所 有 INADDR_ 常 值 都 是 按照 主机 字 布 序 定义 的 ， 我 们 应 该 对 
任何 这 些 常 值 都 使 用 hton1。 


如 果 让 内 核 来 为 套 接 字 选 择 一 个 临时 端口 号 ， 那 么 必须 注意 ， 画 
数 Dind 并 不 返回 所 选择 的 值 。 实 际 上 ， 由 于 bind 函 数 的 第 二 个 参数 
有 const 限 定 词 ， 它 无 法 返回 所 选 之 值 。 为 了 得 到 内 核 所 选择 的 这 个 
临时 端口 值 ， 必 须 调用 函数 getsockname 来 返回 协议 地 址 。 


进程 捆绑 非 通 配 IP 地 址 到 套 接 字 上 的 常见 例子 是 在 为 多 个 组 织 提 

供 Web 服 务 器 的 主机 上 (TCPv3 的 14.2 节 ) 。 首 先 ， 每 个 组 织 都 得 有 各 
和 目的 域名 ， 璧 如 这 样 的 形式 : www.organization.com。 其次， 每 个 组 织 
的 域名 都 映射 到 不 同 的 耳 地 址 ， 不 过 通常 仍 在 同一 个 子 网 上 。 举 例 来 
说 ， 如 果子 网 是 198.69.10， 那 么 第 一 个 组 织 的 卫 地 址 可 以 是 
198.69.10.128， 第 二 个 组 织 的 可 以 是 198.69.10.129， 等 等 。 然 后 ， 把 所 
有 这 些 IP 地 址 都 定义 成 单个 网 络 接口 的 别名 ( 壁 如 在 4.4BSD 系 统 上 就 
使 用 ifconfig 命 令 的 alias 选 项 来 定义 ) ， 这 么 一 来 ， 卫 层 将 接收 


所 有 目的 地 为 任何 一 个 别名 地 址 的 外 来 数据 报 。 最 后 ， 为 每 个 组 织 启 
动 一 个 HTTP 服 务 硕 的 副本 ， 每 个 副本 仅仅 捆绑 相应 组 织 的 耳 地 址 。 


蔡 换 上 壕 方 法 的 另 一 种 技术 是 运行 捆绑 通 配 地 址 的 单个 服务 器 。 
当 一 个 连接 到 达 时 ， 服 务 器 调用 getsockname 函 数 获 取 来 自 客户 的 
目的 IP 地 址 ， 它 在 我 们 的 上 述 讨 论 中 可 以 是 198.69.10.128、 
198.69.10.129， 等 等 。 服 务 器 然后 根据 这 个 客户 连接 所 发 往 的 IP 地 址 
来 处 理 客户 的 请 求 。 


捆绑 非 通 配 了 地 址 的 好 处 是 : 把 一 个 给 定 的 目的 了 P 地 址 解 复 用 到 
一 个 给 定 的 服务 器 进程 是 由 内 核 \ 而 不 是 服务 器 进程 ) 完成 的 。 


我 们 必须 仔细 区 别 一 个 分 组 的 到 达 接 口 和 该 分 组 的 目的 IP 地 址 。 
2 我 们 将 在 8.8 节 讨论 弱 端 系统 模型 和 强 端 系统 模型 。 大 多 数 实现 都 采 
用 前 者 ， 意 味 着 一 个 分 组 只 要 其 目的 IP 地 址 能 够 标识 目的 主机 的 某 个 
网 络 接 口 束 行 ， 不 必 一 定 是 它 的 到 达 接 口 。 (这 里 假设 目的 主机 是 多 
ENL.) 捆绑 非 通 配 IP 地 址 只 是 限定 根据 目的 耳 地 址 来 确定 递送 到 
B os ， 而 对 于 到 达 接 口 则 未 做 任何 限制 ， 除 非 主机 采用 强 
端 系 统 模型 。 


从 bind 画 数 返 回 的 一 个 常见 错误 是 EADDRINUSE (“Address 
already in use”, HHE EH) 。 到 7.5 节 讨论 SO_REUSEADDR 和 
SO_REUSEPORT 这 两 个 余 接 字 选 项 时 我 们 再 详细 说 明 o 
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45 listen 


listen 函 数 仅 由 TCP 服 务 器 调用 ， 它 做 两 件 事 情 。 


(1) 当 socket 函 数 创建 一 个 套 接 字 时 ， 它 被 假设 为 一 个 主动 套 接 
字 ， 也 就 是 说 ， 它 是 一 个 将 调用 connect 发 起 连接 的 客户 套 接 字 。 
1isten 函 数 把 一 个 未 连接 的 套 接 字 转 换 成 一 个 被 动 套 接 字 ， 指 示 内 
核 应 接受 指向 该 套 接 字 的 连接 请 求 。 根 据 TCP 状 态 转 换 图 (图 2-4) , 
调用 Listen 导 致 套 接 字 从 CLOSED 状 态 转换 到 LISTEN 状 态 。 


(2) 本 函数 的 第 二 个 参数 规定 了 内 核 应 该 为 相应 套 接 字 排队 的 最 大 


连接 个 数 。 


#include <sys/socket.h> 
int listen(int sockfd, int backlog); 


返回 ， 若 成 功 则 为 ， 


知 出 错 则 为 -1 


本 函数 通常 应 该 在 调用 socket 和 bind 这 两 个 函数 之 后 ， 并 在 调 
用 accept 函 数 之 前 调用 。 


为 了 理解 其 中 的 backlog 参 数 ， 我 们 必须 认识 到 内 核 为 任何 一 个 给 
定 的 监听 套 接 字 维 护 两 个 队列 : 


(1) 未 完成 连接 队列 (incomplete connection queue) ， 每 个 这 样 的 
SYN 分 和 对 应 其 中 一 项 : 已 由 某 个 客户 发 出 并 到 达 服 务 器 ， 而 服务 器 
正在 等 行 完成 相应 的 TCP 三 路 握手 过 程 。 这 些 余 接 字 处 于 SYN_RCVD 
状态 (图 2-4) 。 


(2) 已 完成 连接 队列 (completed connection queue) ， 每 个 已 完成 
TCP 三 路 握手 过 程 的 客户 对 应 其 中 一 项 。 这 些 套 接 字 处 于 
ESTABLISHED 状 态 (图 2-4) 
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FAERIE RIEA — HI, 2E ELIT Be SF RIBUS 
复制 到 即将 建立 的 连接 中 。 连 搂 的 创建 机 制 是 完全 目 动 的 ， 无 需 服务 
右 进 程 插手 。 图 4-8 展 示 了 用 这 两 个 队列 建立 连 授时 所 交换 的 分 组 。 


aA d xh 
connect HJH | 
f IT 
en ane te: ee A SRE A 
RTT < a T N 
a 


connectik|] ——— ACK K«1 


— 


| RTT 
该 条 日 从 未 完成 队 
刘 转 移 至 已 完成 队 
Sil, accept TIE Me Y« lH! 


图 4-8 TCP 三 路 握手 和 监听 套 接 字 的 两 个 队列 


当 来 目 客户 的 SYN 到 达 时 ，TCP 在 未 完成 连接 队列 中 创建 一 个 新 
项 ， 然 后 啊 应 以 二 re EE HRS SRBJSYNWAN, FLT 
带 对 客户 SYN 的 ACK (2.65) 。 这 一 项 一 直 你 留 在 未 完成 连接 队列 
中 ， 直 到 三 路 握手 的 第 三 个 分 市 客户 对 服务 器 SYN 的 ACK) 到 达 或 


者 该 项 超时 为 止 。 ( 源 自 Berkeley 的 实现 为 这 些 未 完成 连接 的 项 设置 
的 超时 值 为 75s。) 如 果 三 路 握手 正常 完成 ， 该 项 就 从 未 完成 连接 队 
列 移 到 已 完成 连接 队列 的 队 尾 。 当 进程 调用 accept 时 OZKE F 
一 节 讲 解 ) ， 已 完成 连接 队列 中 的 队 头 项 将 返回 给 进程 ， 或 者 如 果 该 
那么 进程 将 被 投入 睡眠 ， 直 到 TCP 在 该 队列 中 放 入 一 项 才 
唤醒 它 。 
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关于 这 两 个 队列 的 处 理 ， 以 下 几 点 需要 考虑 。 
e 1isten 函 数 的 backlog 参 数 曾 被 规定 为 这 两 个 队列 总 和 的 最 大 
值 。 


backlog 的 含义 从 未 有 过 正式 的 定义 。4.2BSD 的 手册 页 面 宣称 它 定 
义 的 是 : “the maximum length the queue of pending connections may 
grow to” (由 未 处 理 连 接 构成 鸭 队列 可 能 增长 到 的 最 大 长 度 ) 。 许 多 手 
册页 面 甚至 POSIX 规 范 也 逐 字 复制 该 定义 ， 然 而 该 定义 并 未 解释 未 处 
理 连 接 是 处 于 SYN_RCVD 状 态 的 连接 ， 还 是 尚未 由 进程 接受 的 处 于 
ESTABLISHED 状 态 的 连接， 亦 或 两 者 少 可 。 这 个 历史 性 的 定义 出 目 
追溯 到 4.2BSD 版 本 的 Berkeley 的 实现 ， 后 来 被 许多 其 他 实现 复制 。 


。 源 自 Berkeley 的 实现 给 backlog 增 设 了 一 个 模糊 因子 (fudge 
factor) : 把 它 乘 以 1.5 得 到 未 处 理 队 列 最 大 长 度 (TCPv1 第 257 页 
和 TCPv2 第 462 页 ) 。 举 例 来 说 ， 通 常 指 定 为 5 的 backlog 值 实际 上 
允许 最 多 有 8 项 在 排队 ， 如 图 4-10 所 示 。 


增设 该 模糊 因子 的 理由 已 无 可 考证 [Joy 1994] ， 但 是 如 果 我 们 
把 backlog 看 成 是 内 核能 为 某 套 接 字 排 队 的 最 大 已 完成 连接 数目 
( [Borman] , 稍 后 讨论 ) ， 那 么 增加 模糊 因子 的 理由 就 是 把 队列 中 
的 未 完成 连接 也 计算 在 内 。 


。 不 要 把 backlog 定 义 为 0， 因 为 不 同 的 实现 对 此 有 不 同 的 解释 (图 4- 
10) 。 如 果 你 不 想 让 任何 客户 连接 到 你 的 监听 套 接 字 上 ， 那 就 关 
掉 该 监听 套 接 字 。 

。 在 二 路 握手 正常 完成 的 前 提 下 (也 就 是 说 没有 丢失 分 节 ， 从 而 没 
AE) ， 未 完成 连接 队列 中 的 任何 一 项 在 其 中 的 存留 时 间 就 是 
一 个 RTT， 而 RTT 的 值 取决 于 特定 的 客户 与 服务 器 。TCPv3 的 14.4 


节 指 出 ， 对 于 一 个 web 服务 器 ， 许 多 客户 与 单个 服务 器 之 间 的 中 
值 RIT 为 187ms。 (既然 出 现 一 些 大 值 可 能 显著 扭曲 均值 ， 对 于 该 
统计 量 通常 使 用 中 值 。) 

历来 沿用 的 样 例 代 码 总 是 给 出 值 为 5 的 backlog， 因 为 这 是 4.2BSD 
支持 的 最 大 值 。 这 个 值 在 20 世 纪 80 年 代 是 足够 的 ， 当 时 繁忙 的 服 
务 器 一 天 也 就 处 理 几 百 个 连接 。 人 然而 随 着 万 维 网 (World Wide 
Web, WWW) 的 发 展 ， 繁 忙 的 服务 器 一 天 要 处 理 几 百 万 个 连 
接 ， 这 个 偏 小 的 值 就 根本 不 够 了 (TCPv328187~192T) ° 8r 
的 HTTP 服 务 絮 必须 指定 一 个 大 得 多 的 backlog 值 ， 而 且 较 新 的 内 
核 必 须 支 持 较 大 的 backlog 值 。 


当前 的 许多 系统 允许 管理 员 修 改 backlog 的 最 大 值 。 
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。 问题 是 既然 backlog 值 为 5 往往 不 够 ， 那 么 应 用 进程 应 该 指定 多 大 
值 的 backlog 呢 ?这 个 问题 不 好 回答 。 当 今 的 HTTP 服 务 器 指定 了 
一 个 较 大 的 值 ， 但 是 如 果 这 个 指定 值 在 源 代码 中 是 一 个 常 值 ， 那 
么 增长 其 大 小 需要 重新 编译 服务 器 程序 。 另 一 个 方法 是 设 定 一 个 
默认 值 ， 不 过 人 允许 通过 命令 行 选 项 或 环境 变量 覆 写 该 默认 值 。 指 
定 一 个 比 内 核能 够 支持 的 值 还 要 大 的 backlog 也 是 可 接受 的 ， 因 为 
内 核 应 该 悄然 把 所 指定 的 偏 大 值 截 成 自身 支持 的 最 大 值 ， 而 不 返 
回 错误 (TCPv2 第 456 页 ) ° 
我 们 通过 修改 1isten 函 数 的 包 庄 画 数 就 能 够 提供 解决 本 问题 的 
一 个 简单 办 法 。 图 4-9 给 出 了 实际 的 代码 。 我 们 允许 环境 变量 
LISTENQ 禾 写 由 调用 者 指定 的 值 。 


'ib/wrapsock.c 
137 void 
133 Listen(int fd, int backlog) 
135 ( 
145 char ^pLr; 
141 /*4can override 2nd argument with environment variable */ 
142 if ( (ptr = getenv("LISTENQ"!) != NULL) 
143 backlog ~ atoi(ptr;; 
144 if (listent=c, backlog! < 0) 
145 err cvs["lisren error"); 
145 } 
lilvuvapsock.c 


图 4-9 ”允许 通过 环境 变量 指定 backlog 值 的 1]isten 的 包 庄 函数 


。 手册 和 书本 历来 声称 : 将 固定 数目 的 未 处 理 连 接 排 成 队列 是 为 了 
处 理 服务 器 进程 在 相继 的 accept 调 用 之 间 处 于 忙 状态 的 情况 。 
这 就 隐 含 着 如 此 意义 : 在 这 两 个 队列 中 ， 已 完成 队列 通常 应 该 比 
未 完成 队列 有 更 多 的 项 。 繁 忙 的 Web 服 务 器 再 次 表明 这 是 不 对 
的 。 指 定 较 大 backlog 值 的 理由 在 于 : 随 着 客户 SYN 分 节 的 到 达 ， 
未 完成 连接 队列 中 的 项 数 可 能 增长 ， 它 们 等 着 三 路 握手 的 完成 。 
当 一 个 客户 SYN 到 达 时 ， 若 这 些 队 列 是 满 的 ，TCP 就 忽略 该 分 节 
(TCPv228930—-93101) ， 也 就 是 不 发 送 RST。 这 么 做 是 因为 : 
这 种 情况 是 暂时 的 ， 客 户 TCP 将 重 发 SYN， 期 望 不 久 就 能 在 这 些 
队列 中 找到 可 用 空间 。 要 是 服务 器 TCP 立 即 啊 应 以 一 个 RST， 窗 
户 的 connect 调 用 就 会 立即 返回 一 个 错误 ， 强 制 应 用 进程 处 理 这 
种 情况 ， 而 不 是 让 TCP 的 正常 重 传 机 制 来 处 理 。 另 外 ， 客 户 无 法 
区 别 响 应 SYN 的 RST 究 竟 意 味 着 “该 端口 没有 服务 器 在 监听 ”， 还 
是 意味 着 “该 端口 有 服务 器 在 监听 ， 不 过 它 的 队列 满 了 ”。 


有 些 实现 在 这 些 队 列 满 时 确实 发 送 RST。 由 于 上 述 原因 ， 这 种 做 
法 古 不 正确 的 ， 我 们 最 好 忽略 其 存在 的 可 能 性 ， 除 非 客 户 明确 要 求 与 
这 样 的 服务 器 交互 。 处 理 这 种 情况 的 额外 代码 编写 会 降低 客户 程序 的 
健壮 性 ， 在 正常 的 RST 情 况 下 ( 即 确实 没有 服务 器 在 客户 请 求 的 端口 
上 监听 ) ， 也 增加 了 网 络 的 负 奏 。 
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。 在 三 路 握手 完成 之 后 ， 但 在 服务 器 调用 accept 之 前 到 达 的 数据 
oo oe 最 大 数据 量 为 相应 已 连接 套 接 字 的 接收 组 
THI 大小。 


图 4-10 给 出 了 图 1-16 所 列 的 各 种 操作 系统 下 ，backlog 参 数 取 不 同 
值 时 已 排队 连接 的 实际 数目 。7 个 操作 系统 被 归纳 成 5 列 不 同 的 值 ， 可 
见 对 backlog 的 意义 的 解释 是 如 此 多 样 。 


实际 已 排队 连接 的 最 人 数 上 


FreeBSD 4.8 
Linux 2.4.7 HP-UX I.I! FreeBSD 5.. Solaris 2.9 


图 4-10 不同 backlog 值 时 已 排队 连接 的 实际 数目 


AIX 和 MacOS 有 传统 的 Berkeley 算 法 ，Solaris 也 似乎 非常 接近 该 算 
法 ，FreeBSD 则 是 packiog 值 本 号 加 1。 


测量 这 些 值 的 程序 在 习题 15.4 的 解答 中 给 出 。 


我 们 已 提 到 过 ， 历 史上 曾 把 backlog 值 指定 为 两 个 队列 之 和 的 最 大 
值 。 在 1996 年 间 ， 因 特 网 受到 一 种 称 之 为 SYN 汉 小 (SYN flooding) 
的 新 型 攻击 [CERT 1996b] 。 黑 客 编写 了 一 个 以 高 速率 给 受害 主机 发 
送 SYN 的 程序 ， 用 以 装填 一 个 或 多 个 TCP 端 口 的 未 完成 连接 队列 。 
(我 们 用 黑客 (hacker) 一 词 来 指称 攻击 者 ， 见 [Cheswick, Bellovin, 
and Rubin 2003] °) 而 且 ， 该 程序 将 每 个 SYN 的 源 IP 地 址 都 置 成 随机 
数 ( 称 为 IP 其 骗 (IP spoofing) ) ， 这 样 服务 器 的 SYN/ACK 就 发 往 不 
知道 什么 地 方 ， 同 时 防止 受 攻 击 服 务 器 获悉 黑客 的 真实 IP 地 址 。 这 
样 ， 通 过 以 伪造 的 SYN 装 填 未 完成 连接 队列 ， 使 合法 的 SYN 排 不 上 
队 ， 导 致 针对 合法 客户 的 服务 被 拒绝 (denial of service) 。 有 两 种 处 
理 这 种 拒绝 服务 型 攻击 的 常用 方法 ， [Borman | 作 了 总 结 。 不 过 这 儿 
我 们 最 感 兴趣 的 是 回味 一 下 Listen 的 backlog 参 数 的 确切 含义 。 它 应 
该 指定 某 个 给 定 套 接 字 上 内 核 为 之 排队 的 最 大 已 完成 连接 数 。 对 于 已 
完成 连接 数 作出 限制 的 目的 在 于 : 在 监听 某 个 给 定 套 接 字 的 应 用 进程 
(不 论 什 么 原因 ) 停止 接受 连接 的 时 候 ， 防 止 内 核 在 该 套 接 字 上 继续 


接受 新 的 连接 请 求 。 如 果 一 个 系统 实现 了 这 样 的 解释 (例如 BSD/OS 
3.0) ， 那 么 应 用 程序 就 无 需 仅 仅 因 为 服务 器 进程 需要 处 理 大 量 客户 请 
KK (例如 繁忙 的 Web 服 务 器 ) 或 者 为 了 提供 对 SYN 泛 小 的 防护 而 指定 
一 个 巨大 的 backlog 值 了 。 内 核 处 理 大 量 的 未 完成 连接 ， 而 不 论 它们 来 
目 合法 客户 还 是 来 目 黑客 。 然 而 即使 在 这 样 的 解释 下 ， 传 统 为 5 的 
backlog 值 不 够 大 的 情形 依然 发 生 。 
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4.6 accept HX 


accept 函 数 由 TCP 服 务 器 调用 ， 用 于 从 已 完成 连接 队列 队 头 返回 
下 一 个 已 完成 连接 (图 4-7) 。 如 果 已 完成 连接 队列 为 空 ， 那 么 进程 被 
投入 睡眠 (假定 套 接 字 为 默认 的 阻塞 方式 ) 。 


#include <sys/socket.h> 


int accept(int sockfd, struct sockaddr *cliaddr, socklen_t 
*addrlen); 


返回 : AR AA HE f i at 


T, tH Fa - 1. 


参数 cliaddr 和 addrlen 用 来 返回 已 连接 的 对 端 进程 (客户 ) 的 协议 
地 址 。addrien 是 值 一 结果 参数 (3.377) : 调用 前 ， 我 们 将 由 *addrlen 
所 引用 的 整数 值 置 为 由 cjiaddr 所 指 的 套 接 字 地 址 结构 的 长 度 ， 返 回 
时 ， 该 整数 值 即 为 由 内 核 存 放 在 该 套 接 字 地 址 结构 内 的 确切 字 节 数 。 


如 果 accept 成 功 ， 那 么 其 返回 值 是 由 内 核 自 动 生成 的 一 个 全 新 
描述 符 ， 代 表 与 所 返回 客户 的 TCP 连 接 。 在 讨论 accept 函 数 时 ， 我 们 
称 它 的 第 一 个 参数 为 监听 套 接 字 (listening socket) 描述 符 (由 
socket 创 建 ， 随 后 用 作 bind 和 1isten 的 第 一 个 参数 的 描述 符 ) , 
称 它 的 返回 值 为 已 连接 套 接 字 (connected socket) 描述 符 。 区 分 这 两 
个 套 接 字 非 常 重要 。 一 个 服务 器 通常 仅仅 创建 一 个 监听 套 接 字 ， 它 在 
该 服务 器 的 生命 期 内 一 直 存 在 。 内 核 为 每 个 由 服务 器 进程 接受 的 客户 
连接 创建 一 个 已 连接 套 接 字 (也 就 是 说 对 于 它 的 TCP 三 路 握手 过 程 已 
经 完成 ) 。 当 服务 器 完成 对 某 个 给 定 客户 的 服务 时 ， 相 应 的 已 连接 套 
接 字 就 被 关闭 。 


本 函数 最 多 返回 三 个 值 : 一 个 既 可 能 是 新 套 接 字 摘 述 符 也 可 能 是 
出 错 指示 的 整数 、 客 户 进 程 的 协议 地 址 (由 cliaddr 指 针 所 指 ) 以 及 该 
地 址 的 大 小 〈 由 addrien 指 针 所 指 ) 。 如 果 我 们 对 返回 客户 协议 地 址 不 
感 兴 趣 ， 那 么 可 以 把 cliaddr 和 addrien 均 置 为 空 指针 。 


图 1-9 展 示 了 这 些 指针 。 已 连接 僚 接 字 每 次 都 在 循环 中 关闭 ， 但 监 
听 套 接 字 在 服务 右 的 整个 有 效 期 内 都 保持 开放 。 我 们 还 看 到 accept 


的 第 二 和 第 三 个 参数 都 是 空 指针 ， 因 为 我 们 对 客户 的 映 份 不 感 兴趣 。 


例子 : 值 一 结果 参数 


现在 ， 我 们 通过 修改 图 1-9 中 所 示人 代码 以 显示 客户 的 耻 地 址 和 端口 
号 ， 来 看 看 如 何 处 理 accept 的 值 一 结果 参数 ， 见 图 4-11。 
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introfdamtimetepsrvi.c 


1 H.uclude "unp.:* 
2 Hinclude <time.h> 


3 in- 
4 main(int arge, char **arqv) 


51 

6 int l:stenfd, connfc: 

7 socklen t len; 

8 struct e2c«addr in servsd2r, c.iaddr; 
9 char suff [MAXLING’ ; 

6 

1 


1 time t ticks; 

1 lisLenfd = SocxeL!AF INET, SOCK STREAM, C'; 

12 bzero(&ssrvaddr, sizeofszrvaddr)); 

13 servedir.sin family = AF INET; 

14 eervaddr.cin addr.s addr = htenl|LNADLH ANY); 

15 servaddr.sin_pert = htons(13); /* daytime server */ 

1€ Bind(listentd, ‘Eh *! &ocrvadar, sizcot(cervaddr)); 

1; Listen(-ietenfd, LISTEN!; 

1E for (pr Y 

19 len = sizcof (cliaddr] ; 

26 connf{d = AccepL(lisLeufd, ISA *' &cliaddc, élen): 

21 crin-f ("connection from ts, port *<\n", 

22 inec ntop(AF INET, &clicddr.sin addr, buf=, £izecf(buftf)), 
23 ntohs (cliaddr.ain port!): 

24 ticks = zine (NULL); 

25 snprincf (buff, sizeof (bufi), *$.24sXr'z", ctimeil&ticks]):; 
ZE write;connf£d, buff, s-rlen/buff)); 

25 Close;conntd;; 

p ) 

29 ) 


wiro/daytimeicpsvel.c 


图 4-11 显示 客户 IP 地 址 和 端口 号 的 时 间 获 取 服务 器 程序 
新 的 声明 


7-8 我 们 定义 两 个 新 的 变量 : len， 它 将 成 为 一 个 值 -结果 变 
=; cliaddr， 它 将 存放 客户 的 协议 地 址 。 


接受 连接 并 显示 客户 地 址 


19-23 ”我 们 将 len 初 始 化 为 套 接 字 地 址 结构 的 大 小 ， 将 指向 
cliaddr 结 构 的 指针 和 指向 len 的 指针 分 别 作为 accept 的 第 二 和 第 
三 个 参数 。 调 用 inet_ntop (3.7 节 ) 将 套 接 字 地 址 结构 中 的 32 位 IP 
地 址 转换 为 一 个 点 分 十 进 制 数 ASCII 字 符 串 ， 调 用 ntohs (3.4 节 ) 将 
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调用 sock_ntop 来 取代 inet_ntop 将 使 得 我 们 的 服务 器 更 具 协 
议 无 关 性 ， 不 过 该 服务 器 已 经 依赖 于 IPv4 了 。 我 们 将 在 图 11-13 中 给 出 
该 服务 器 程序 的 协议 无 关 版 本 。 


运行 这 个 新 的 服务 右 程 序 ， 然 后 在 同一 个 主机 上 连续 运行 客户 程 
序 两 次 以 连接 到 该 服务 右 ， 我 们 得 到 来 目 客户 的 如 下 输出 : 


solaris % daytimetcpcli 127.0.0.1 
Thu Sep 11 12:44:00 2003 


solaris % daytimetcpcli 192.168.1.20 
Thu Sep 11 12:44:09 2003 


我 们 首先 把 服务 器 主机 的 地 址 指定 为 环 回 地 址 (127.0.0.1) ， 然 
Fe 自身 的 IP 地 址 (192.168.1.20) 。 下 面 是 相应 的 服务 器 输 


solaris # daytimetcpsrv1 
connection from 127.0.0.1, port 43388 
connection from 192.168.1.20, port 43389 


注意 客户 IP 地 址 的 变化 。 既 然 我 们 的 时 间 获 取 客 户 程 序 (图 1-5) 
不 调用 bind， 而 我 们 在 4.4 节 说 过 ， 这 样 的 客户 由 内 核 根据 所 用 外 出 
接口 选 定 源 IP 地 址 。 第 一 个 案例 中 ， 内 核 把 源 IP 地 址 置 为 环 回 地 址 ; 
第 二 个 案例 中 ， 内 核 把 源 IP 地 址 置 为 以 太 网 接口 的 IP 地 址 。 从 本 例子 
中 我 们 还 看 到 ， 由 Solaris 内 核 选 择 的 临时 端口 号 先是 43388， 后 是 
43389 (回顾 图 2-10) 。 


最 后 一 态 ， 服 务 句 脚本 的 shell 提 示 符 变 为 井 号 (#) ， 它 是 超级 用 
户 的 常用 提示 符 。 该 服务 邵 必 须 以 超级 用 户 特权 运行 ， 以 便 绑 定 保留 
的 13 号 端口 。 如 打 没 有 超级 用 户 特权 ， 调 用 bind 将 失败 : 


solaris % daytimetcpsrv1 
bind error: Permission denied 
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在 阐述 如 何 编写 并 发 服务 器 程序 之 前 (下 一 节 ) ， 我 们 必须 首先 
介绍 一 下 Unix 的 fork 函 数 。 该 函数 (包括 有 些 系统 可 能 提供 的 它 的 各 
种 变 体 ) 是 Unix 中 派生 新 进程 的 唯一 方法 。 


#include <unistd.h> 


pid_t fork(void); 


: 在 子 进程 中 为 90， 在 父 进程 中 为 子 进 


ID， 若 出 错 则 为 -1 


如 果 你 以 前 从 未 接触 过 该 函数 ， 那 么 理解 fork 最 困难 之 处 在 于 调 
用 它 一 次 ， 它 却 返 回 两 次 。 它 在 调用 进程 〈 称 为 父 进程 ) 中 返回 一 
次 ， 返 回 值 古 新 派生 进程 MATHE) WEEDS, 在 子 进程 义 返 
a 返回 值 为 0。 因 此 ， 返 回 值 本 号 告知 当前 进程 是 子 进程 还 是 父 
进程 。 
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fork 在 子 进 程 返 回 0 而 不 是 父 进程 的 进程 ID 的 原因 在 于 : 任何 子 
进程 只 有 一 个 父 进程 ， 而 且 子 进程 总 是 可 以 通过 调用 getppid 取 得 父 
进程 的 进程 ID。 相 反 ， 父 进程 可 以 有 许多 子 进程 ， 而 且 无 法 获取 各 个 
子 进程 的 进程 ID。 如 果 父 进程 想 要 跟 踩 所 有 子 进程 的 进程 ID， 那 么 它 
必须 记录 每 次 调用 fork 的 返回 值 。 


父 进 程 中 调用 fork 之 前 打开 的 所 有 描述 符 在 fork 返 回 之 后 由 子 
进程 分 享 。 我 们 将 看 到 网 络 服务 器 利用 了 这 个 特性 : 父 进程 调用 
accept 之 后 调用 fork。 所 接受 的 已 连接 套 接 字 随后 就 在 父 进程 与 子 
进程 之 间 共 享 。 通 常情 况 下 ， 子 进程 接着 读 写 这 个 已 连接 套 接 字 ， 父 
进程 则 关闭 这 个 已 连接 套 接 字 。 


fork 有 两 个 典型 用 法 。 


(0 一 个 进程 创建 一 个 目 身 的 副本 ， 这 样 每 个 副本 都 可 以 在 太一 个 
副本 执行 其 他 任务 的 同时 处 理 各 目的 某 个 操作 。 这 是 网 络 服务 器 的 典 
型 用 法 。 我 们 将 在 本 书后 面 看 到 许多 这 样 的 例子 。 


(2) 一 个 进程 想 要 执行 男 一 个 程序 。 有 既然 创 建新 进程 的 唯一 办 法 是 
调用 fork， 该 进程 于 是 首先 调用 fork 创 建 一 个 自身 的 副本 ， 然 后 其 
中 一 个 副本 (通常 为 子 进程 ， 调 用 exec ( 接 下 去 介绍 ) 把 自身 替换 成 
新 的 程序 。 这 是 诸如 shell 之 类 程序 的 典型 用 法 。 


存放 在 硬盘 上 的 可 执行 程序 文件 能 够 被 Unix 执 行 的 唯一 方法 是 : 
由 一 个 现 有 进程 调用 六 个 exec 函 数 中 的 某 一 个 。 〈 当 这 6 个 函数 中 是 
哪 一 个 被 调用 并 不 重要 时 ， 我 们 往往 把 它们 统称 为 exec 函 数 。) 
exec 把 当前 进程 映像 蔡 换 成 新 的 程序 文件 ， 而 且 该 狐 程 序 通 常 从 
main 夯 数 开 始 执 行 。 进 程 ID 并 不 改变 。 我 们 称 调用 exec 的 进程 为 调 
用 进程 (calling process) ， 称 新 执行 的 程序 为 新 程序 (new 


program) ° 


较 老 的 手册 和 书本 不 确切 地 称 新 程序 为 狐 进 程 (new process) , 
这 是 错误 的 ， 因 为 其 中 并 没有 创建 新 的 进程 。 


这 6 个 exec 函 数 之 间 的 区 别 在 于 (a) 待 执 
件 名 (filename) 还 是 由 路 径 名 (pathname) 指定 
数 是 一 一 列 出 还 是 由 一 个 指针 数组 来 引用 ; (o 
递 给 新 程序 还 是 给 新 程序 指定 新 的 环境 。 
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行 的 程序 文件 是 由 文 
. (b) 新 程序 的 参 
把 调用 进程 的 环境 伟 


#include <unistd.h> 


int execl(const char *pathname, const char *argO, ... /* (char *) 
9g */ ); 


int execv(const char *pathname, char *const *argv[]); 


int execle(const char *pathname, const char *argO, ... 
/* (char *) 0, char *const envp[] */ ); 


int execve(const char *pathname, char *const argv[], char *const 
envp[]); 


int execlp(const char *filename, const char *argO, ... /* (char *) 


0 */ ); 
int execvp(const char *filename, char *const argv[]); 


HRE: 着 成 功 则 不 返 


回 ， 若 出 错 则 为 -1 


这 些 函 数 只 在 出 错时 才 返 回 到 调用 者 。 否 则 ， 控 制 将 被 传递 给 新 
程序 的 起 始点 ， 通 第 就是 main 了 芳 数 。 


这 6 个 函数 间 的 关系 如 图 4-12 所 示 。 一 般 来 说 ， 只 有 execve 是 内 
核 中 的 系统 调用 ， 其 他 5 个 都 是 调用 execve 的 库 函 数 。 


= ` 


execlp (fiie, arg, m 67 | exec] (path, atg, ..., U) | execle inath, arg, ..., U, cmp) 


£3 Pare | argv fil ®arev 


| 38 x MEX A 
execviputh, argo) Fe execve (path, argv. envy) ET Ig 
ENET Wn 


qiio 


exacup (file, argv) 


— J 


图 4-12 ”6 个 exec 画 数 的 关系 
注意 这 6 个 函数 的 下 列 区 别 。 


(1) 上 面 那 行 的 3 个 函数 把 新 程序 的 每 个 参数 字符 串 指 定 成 exec 的 
一 个 独立 参数 ， 并 以 一 个 空 指针 结束 可 变数 量 的 这 些 参数 。 下 面 那 行 
的 3 个 函数 都 有 一 个 作为 exec 参 数 的 argv 数 组 ， 其 中 含有 指 癌 新 程序 
各 个 参数 字符 串 的 所 有 指针 。 既 然 没 有 指定 参数 子 符 串 的 数目 ， 这 个 
argv 数 组 必须 含有 一 个 用 于 指定 其 末尾 的 空 指针 。 


(2) 左 列 2 个 函数 指定 一 个 fiename 人 参数 。exec 将 使 用 当前 的 PATH 
环境 变量 把 该 文件 名 参数 转换 为 一 个 路 径 名 。 然 而 一 旦 这 2 个 函数 的 
filename 参 数 中 含有 一 个 斜 杜 (/) ， 就 不 再 使 用 PATH 环境 变量 。 右 两 
列 4 个 画 数 指定 一 个 全 限定 的 pathname 参 数 。 


(3) 左 两 列 4 个 函数 不 显 式 指定 一 个 环境 指针 。 相 反 ， 它 们 使 用 外 
部 变量 environ 的 当前 值 来 构造 一 个 传递 给 新 程序 的 环境 列表 。 右 列 
2 个 函数 显 式 指定 一 个 环境 列表 ， 其 envp 指 针 数组 必须 以 一 个 空 指 针 结 
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进程 在 调用 exec 之 前 打开 着 的 描述 符 通 常 跨 exec 继 续 保 持 打 
开 。 我 们 使 用 限定 词 “通常 * 是 因为 本 默认 行为 可 以 使 用 fcnt1 设 置 
FD_CLOEXEC 描 述 符 标 志 禁 止 掉 。inetd 服 务 器 就 利用 了 这 个 特性 ， 
我 们 将 在 13.5 节 讲述 这 一 点 。 


48 JHABRÓS A: 


图 4-11 中 的 服务 器 是 一 个 迭代 服务 器 (iterative server) 。 对 于 像 
时 间 获 取 这 样 的 简单 服务 絮 来 说 ， 这 束 够 了 。 然 而 当 服务 一 个 客户 请 
求 可 能 花费 较 长 时 间 时 ， 我 们 并 不 希望 整个 服务 器 被 单个 客户 长 期 占 
用 ， 而 是 希望 同时 服务 多 个 客户 。Unix 中 编写 并 发 服务 器 程序 最 简单 
的 办 法 束 是 fork 一 个 子 进程 来 服务 每 个 客户 。 图 4-13 给 出 了 一 个 典型 
的 并 发 服务 器 程序 的 轮廓 。 


pid t pid; 
int listenfd, cocnfd; 
listenfd = Socket( ... |; 
/* fill in seckaddr in[] with server's well-knewr. sort */ 
Bind(listenfd, ... ), 
Listen(lis-enfd, L^ST*NQ); 


f 


fom (^ CY 1 


connfd = Aocept(l-stentid, ... ;j /* probsblv blocks */ 
if ( (pid = Fork(]) == 0) | 
Closs(l-stenfd!; /* child closes listening socket 4/ 
doit (conntd) ; /* process the request */ 
Clces(conntd!; {* done with this client */ 
exit (0) ; /* child terminates */ 
i 
Close (connfd) ; /* carent closes connected socket */ 
} 


图 4-13 ”典型 的 并 发 服务 器 程序 轮廓 


当 一 个 连接 建立 时 ，accept 返 回 ， 服 务 器 接着 调用 fork， 然 后 
由 子 进程 服务 客户 (通过 已 连接 套 接 字 connfd) ， 父 进程 则 等 待 另 
一 个 连接 〈 通 过 监听 套 接 字 1istenfd) 。 既 然 新 的 客户 由 子 进程 提 
供 服务 ， 父 进程 就 关闭 已 连接 套 接 字 。 


图 4-13 中 我 们 假设 由 画 数 doit 执 行 服务 客户 所 需 的 所 有 操作 。 当 
该 画 数 返回 时 ， 我 们 在 子 进程 中 显 式 地 关闭 已 连接 套 接 字 。 这 一 点 并 
非 必需 ， 因 为 下 一 个 语句 就 是 调用 exit ， 而 进程 终止 处 理 的 部 分 工作 
就 是 关闭 所 有 由 内 核 打开 的 描述 符 。 是 否 显 式 调用 close 只 和 个 人 纺 
程 风 格 有 关 。 
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di E2.6 Tit, x-—TTCPÉEf$CcEWHcloseZi5SUz—^ 
FIN， 随 后 是 正常 的 TCP 连 接 终止 序列 。 为 什么 图 4-13 中 父 进程 对 
connfd 调 用 close 没 有 终止 它 与 客户 的 连接 呢 ? 为 了 便于 理解 ， 我 
们 必须 知道 每 个 文件 或 套 接 字 都 有 一 个 引用 计数 。 引 用 计数 在 文件 表 
项 中 维护 (APUE 第 58~59 页 ) ， 它 是 当前 打开 着 的 引用 该 文件 或 套 
接 字 的 描述 符 的 个 数 。 图 4-13 中 ，socket 返 回 后 与 1istenfd 关 联 的 
文件 表 项 的 引用 计数 值 为 1。accept 返 回 后 与 connfd 关 联 的 文件 表 
项 的 引用 计数 值 也 为 1。 然 而 fork 返 回 后 ， 这 两 个 描述 符 就 在 父 进程 
与 子 进程 间 共 享 (也 就 是 被 复制 ， 因 此 与 这 两 个 套 接 字 相 关联 的 文 
件 表 项 各 自 的 访问 计数 值 均 为 2。 这 么 一 来 ， 当 父 进程 关闭 connfd 
时 ， 它 只 是 把 相应 的 引用 计数 值 从 2 减 为 1°。 该 套 接 字 真 正 的 清理 和 资 
E c eMe me IIIS THE 
connfd 时 发 生 。 


我 们 还 可 以 将 图 4-13 中 出 现 的 套 接 字 和 连接 用 图 示 直 观 地 表现 出 
来 。 首 先 ， 图 4-14 给 出 了 在 服务 器 阻塞 于 accept 调 用 且 来 目 客 户 的 连 
接 请 求 到 达 时 客户 和 服务 大 的 状态 。 


Tr 


服务 器 


ERAR le listenfd 
connect() $-----^^ — 


图 4-14 accept 返回 前 客户 /服务 器 的 状态 


从 accept 返 回 后 ， 我 们 立即 束 有 图 4-15 所 示 状 态 e 连接 被 内 核 接 
受 ， 新 的 套 接 字 connfd 被 创建 。 这 是 一 个 已 连接 套 接 字 ， 可 由 此 跨 
连接 读 写 数据 。 


客户 WR a 


Lt 
_ ”连接 
Re ge connfd 


图 4-15 ”accept 返 回 后 客户 /服务 器 的 状态 


connect () 
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并 发 服务 器 的 下 一 步 是 调用 fork， 图 4-16 给 出 了 从 fork 返 回 后 
的 状态 。 


客户 服务 器 ( 父 进程) 

—— listenfd 

连接 
connect () a 

b MEY connfd 
icd 
A 
RT 
Es 


listen£d 


connfd 


图 4-16 ”fork 返 回 后 客户 /服务 器 的 状态 


注意 ， 此 时 Listenfd 和 connfd 这 两 个 描述 符 都 在 父 进 程 和 子 进 
程 之 间 共 享 (GEE Till) 。 


再 下 一 步 是 由 父 进程 关闭 已 连接 套 接 字 ， 由 子 进程 关闭 监听 套 接 
字 ， 如 图 4-17 所 示 。 


- 服务 器 ( 父 进程 ) 


e listenfd 
connect ‘i 


de: 服务 器 〈 子 进程 ) 


图 4-17 ”父子 进程 关闭 相应 套 接 字 后 客户 /服务 器 的 状态 
”这 是 这 两 个 套 接 字 所 期 望 的 最 终 状态 。 子 进程 处 理 与 客户 的 连 
接 ， 父 进程 则 可 以 在 监听 套 接 字 上 再 次 调用 accept 来 处 理 下 一 个 客 
PER. 
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4.9 close 


通常 的 Unix Close 函数 也 用 来 关闭 套 接 字 ， 并 终止 TCP 连 接 。 


#include <unistd.h> 
int close(int sockfd); 


返回 : ARIKO, AH 


错 则 为 -1 


close 一 个 TCP 套 接 字 的 默认 行为 是 把 该 套 接 字 标 记 成 已 关闭， 
然后 立即 返回 到 调用 进程 。 该 套 接 字 描述 符 不 能 再 由 调用 进程 使 用 ， 
也 就 是 说 它 不 能 再 作为 read 或 write 的 第 一 个 参数 。 然 而 TCP 将 尝试 
发 送 已 排队 等 待 发 送 到 对 端的 任何 数据 ， 发 送 完毕 后 发 生 的 是 正常 的 
TCP 连 接 终止 序列 (2.677) e 


我 们 将 在 7.5 节 介绍 的 SO_LINGER 套 接 字 选项 可 以 用 来 改变 TCP 套 
接 字 的 这 种 默认 行为 。 我 们 还 将 在 那 季 介绍 TCP 应 用 进程 必须 怎么 做 
才能 确信 对 端 应 用 进程 已 收 到 所 有 未 处 理 数 据 。 


描述 符 引 用 计数 


在 4.8 广 末尾 我 们 提 到 过 ， 并 发 服务 絮 中 父 进程 关闭 已 连接 套 接 字 
只 是 导致 相 应 描述 符 的 引用 计数 值 减 1。 既然 引用 计数 值 仍 大 于 0， 这 
个 close 调 用 并 不 引发 TCP 的 四 分 组 连接 终止 序列 。 对 于 父 进 程 与 子 
进程 共 至 已 连接 套 接 字 的 并 发 服务 器 来 说 ， 这 正 是 所 期 户 的 。 


如 果 我 们 确实 想 在 某 个 TCP 连 接 上 发 送 一 个 FIN， 那 么 可 以 改 用 
shutdownERZ (6.67) 以 代 苦 close。 我 们 将 在 6.5 闻 阐述 这 么 做 的 
动机 。 


我 们 还 得 清楚 ， 如 果 父 进程 对 每 个 由 accept 返 回 的 已 连接 套 接 
字 都 不 调用 close， 那 么 并 发 服务 右 中 将 会 发 生 什 么 。 首先， 父 进程 
最 终 将 耗 尽 可 用 描述 符 ， 因 为 任何 进程 在 任何 时 刻 可 拥有 的 打开 着 的 
描述 符 数 通常 症 有 限制 的 。 不 过 更 重要 的 是 ， 没 有 一 个 客户 连接 会 被 
终止 。 当 子 进 程 关 闭 已 连接 套 接 字 时 ， 它 的 引用 计数 值 将 由 2 递减 为 1 


且 保 持 为 1， 因 为 父 进程 永 不 关闭 任何 已 连接 套 接 字 。 这 将 妨碍 TCP 连 
接 终 止 序列 的 发 生 ， 导 致 连接 一 直 打 开 着 。 


4.10 getsockname#ligetpeername 
数 


这 两 个 函数 或 者 返回 与 某 个 套 接 字 关 联 的 本 地 协议 地 址 
(getsockname) ， 或 者 返回 与 某 个 套 接 字 关 联 的 外 地 协议 地 址 


(getpeername) 
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#include <sys/socket.h> 

int getsockname(int sockfd, struct sockaddr *localaddr, socklen_t 
*addrlen); 

int getpeername(int sockfd, struct sockaddr *peeraddr, socklen t 


*addrlen); 


PRI er 


—— TERR, RA ERAN TSR BARS ^. ORE, 
这 两 个 范 数 都 得 装填 由 localaddr 或 peeraddr 指 针 所 指 的 套 接 字 地 址 结 


构 


讨论 bind 时 我 们 提 到 ， 使 用 name” (名 字 ) 一 词 令 人 误解 。 这 两 
个 函数 返回 与 某 个 网 络 连 接 的 两 端 中 任何 一 端 相 关联 的 协议 地 址 ， 对 
于 IPv4 和 IPv6 来 说 ， 就 是 IP 地 址 和 端口 号 的 组 合 。 这 两 个 函数 与 域名 
(5893€) 没有 任何 联系 。 


需要 这 两 个 函数 的 理由 如 下 所 述 。 


。 在 一 个 没有 调用 bind 的 TCP 客 户 上 ，connect 成 功 返 回 后 ， 
getsockname 用 于 返回 由 内 核 赋 予 该 连接 的 本 地 IP 地 址 和 本 地 端 
口号 。 

。 在 以 端口 号 0 调用 bind (告知 内 核 去 选择 本 地 端口 号 ) m. 
getsockname 用 于 返回 由 内 核 赋予 的 本 地 端口 号 。 

。 getsockname 可 用 于 获取 某 个 套 接 字 的 地 址 族 ， 如 图 4-19 所 示 。 

。 在 一 个 以 通 配 IP 地 址 调用 bind 的 TCP 服 务 器 上 (图 1-9) ， 与 某 个 
客户 的 连接 一 旦 建立 (accept 成 功 返 回 ) ，getsockname 就 可 
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套 接 字 描 述 符 参 数 必 须 是 已 连接 套 接 字 的 措 述 符 ， 而 不 是 监听 套 
接 字 的 描述 符 。 

当 一 个 服务 器 是 由 调用 过 accept 的 某 个 进程 通过 调用 exec 执 行 
程序 时 ， 它 能 够 获取 客户 身份 的 唯一 途径 便 是 调用 
getpeername ° inetd (13.5 节 ) fork 并 exec 某 个 TCP 服 务 器 
程序 时 就 是 如 此 情形 ， 如 图 4-18 所 示 。inetd 调 用 accept (左上 
方 方 框 ) 返回 两 个 值 : 已 连接 套 接 字 描 述 行 connfd， 这 是 函数 
的 返回 值 ， 客 户 的 IP 地 址 及 端口 号 ， 如 图 中 标 有 “对 端 地 址 ”的 小 
方 框 所 示 (代表 一 个 网 际 网 套 接 字 地 址 结构 。inetd 随 后 调用 
fork， 派 生出 inetd 的 一 个 子 进 程 。 既 然 子 进程 起 始 于 父 进程 的 
内 存 映 像 的 一 个 副本 ， 父 进程 中 的 那个 套 接 字 地 址 结构 在 子 进程 
中 也 可 用 ， 那 个 已 连接 套 接 字 描 述 符 也 是 如 此 (因为 描述 符 在 父 
子 进程 之 间 是 共享 的 ) 。 然 而 当 子 进程 调用 exec 执 行 真正 的 服务 
器 程序 ( 壁 如 说 Telnet 服 务 器 程序 时 ， 子 进程 的 内 存 映 像 被 蔡 换 
成 新 的 Telnet 服 务 器 的 程序 文件 (也 就 是 说 包含 对 端 地 址 的 那个 套 
接 字 地 址 结构 就 此 丢失 ) ， 不 过 那个 已 连接 套 接 字 描 述 符 跨 exec 
继续 你 持 开 放 。Telnet 服 务 器 首先 调用 的 函数 之 一 便 是 
getpeername， 用 于 获取 客户 的 IP 地 址 和 端口 号 。 


inctd inctd FHAR) 
atta | "T 
| Lo 
fork 
connid® = accept |!) connfce 
|exec 
' 
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图 4-18 ”inetd 派 生 服务 器 的 例子 


显然 ， 最 后 一 个 例子 中 的 Telnet 服 务 器 必须 在 启动 之 后 获取 
connfd 的 值 。 获 取 该 值 有 两 个 常用 方法 。 第 一 种 方法 是 ， 调 用 exec 
的 进程 可 以 把 这 个 描述 符 吕 格式 化 成 一 个 字符 呆 ， 再 把 它 作为 一 个 命 
令 行 参 数 传递 给 痢 程 序 。 第 二 种 方法 是 ， 约 定 在 调用 exec 之 前 ， 总 是 
把 某 个 特定 描述 符 置 为 所 接受 的 已 连接 套 接 字 的 摘 述 待 。inetd 和 采用 
的 是 第 二 种 方法 ， 它 尽 是 把 描述 符 0、1 和 2 置 为 所 接受 的 已 连 授 套 接 字 
的 摘 述 符 。 


例子 : 获取 套 搂 字 的 地 址 族 


图 4-19 中 所 示 的 sockfd_to_family 函 数 返 回 某 个 套 接 字 的 地 址 


族 。 


lib/isockfd to. family.c 


1 #incluce "ump. t” 

2 int 

3 socktd tc tarily(int socktd) 
ti 
€ 


Struc?) sockatdr starage ss; 
6 Sccklen t ler; 
7 len = gizeoz(55;; 
6 iE (getsockname(sozkEd, (SA +) Sss, &len) < ©) 
E returní-1); 
19 returniss.es family); 


lib/sockfd to famih.c 


图 4-19 返回 套 接 字 的 地 址 族 
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为 最 大 的 套 接 字 地 址 结构 分 配 空间 


5 ”既然 不 知道 要 分 配 的 套 接 字 地 址 结构 的 类 型 ， 我 们 于 是 采用 
sockaddr_storage 这 个 通用 结构 ， 因 为 它 能 够 承载 系统 支持 的 任 
何 套 接 字 地 址 结构 。 


调用 get sockname 


7-10 我们 调用 getsockname 返 回 地 址 族 。 既 然 POSIX 规 范 允 
许 对 未 绑 定 的 套 接 字 调用 getsockname， 该 函数 应 该 适合 任何 已 打 


开 的 套 接 字 描述 符 。 


441 ”小结 


所 有 客户 和 服务 器 都 从 调用 socket 开 始 ， 它 返回 一 个 套 接 字 描 
述 符 。 窜 户 随后 调用 connect， 服 务 屡 则 调用 bind、1Listen 和 
accept。 套 接 字 通常 使 用 标准 的 close 函 数 关 闭 ， 不 过 我 们 将 看 到 
使 用 shutdown 函 数 关 闭 套 接 字 的 男 一 种 方法 (6.677) ， 我 们 还 要 查 
看 SO_LINGER 套 接 字 选项 对 于 关闭 套 接 字 的 影响 (7.558) e 


KE AICPA AEA, C179 8 T ERA PE ea A 
fork kE — T Fitts ° Bae, KAEXUDPARA Si ADEST] ° 
尽管 这 两 个 模型 已 经 成 功 地 运用 了 许多 年 ， 我 们 仍 将 在 第 30 章 中 探讨 
使 用 线程 和 进程 的 其 他 服务 器 程序 设计 方法 。 


习题 


41 在 4.4 节 中 ， 我 们 说 头 文件 <netinet/in.h> 中 定义 的 
INADDR_ 常 值 是 主机 字 廊 序 的 。 我 们 应 该 如 何 辨 别 ? 


42 ”把 图 1-5 改 为 在 connect 成 功 返 回 后 调用 getsockname。 使 
用 sock_ntop 显 示 赋 予 TCP 套 接 字 的 本 地 了 地 址 和 本 地 端口 号 。 你 的 
系统 的 临时 端口 在 什么 范围 内 (图 2-10) ? 


43 ”在 一 个 并 发 服务 絮 中 ， 假 设 fork 调 用 返回 后 子 进程 先 运 
行 ， 而 且 子 进程 随后 在 fork 调 用 返回 父 进 程 之 前 就 完成 对 客 刻 的 服 
务 。 图 4-13 中 的 两 个 close 调 用 将 会 发 生 什么 ? 

44 ”在 图 4-11 中 ， 先 把 服务 器 的 端口 号 从 13 改 为 9999 (这 样 不 需 
要 超级 用 户 特权 就 能 局 动 程序 ) ， 再 删 控 1isten 调 用 ， 将 会 发 生 什 
AA? 


45 继续 上 一 题 。 删 掉 bind 调 用 ， 但 是 保留 1isten 调 用 ， 又 将 
KET A? 
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OHA (binding) 操作 涉及 三 个 对 象 : BREF (在 XTI API 中 为 端 
A) 、 地 址 及 端口 。 其 中 套 接 字 是 捆绑 的 主体 ， 地 址 和 端口 是 捆绑 在 
套 接 字 上 的 客体 。 由 于 涉及 对 象 较 多 ， 我 们 先 在 这 里 澄清 各 种 说 法 : 
(1) “捆绑 地 址 A 和 /或 端口 P 到 套 接 字 S”。 同 义 说 法 还 有 :“ 把 地 址 A 
和 /或 端口 P 捆 绑 到 套 接 字 S”, “给 套 接 字 S 捆 绑 地 址 A 和 /或 端口 P*?， 等 
等 。 (2)“ 跟 端口 P (地 址 A) 一 块 捆 绑 地 址 A (端口 P) ” ° BBE 
(bound) 表示 捆绑 成 功 后 的 状态 ， 它 的 各 种 说 法 如 下 : (1) “ 绑 定 地 
址 A 和 /或 端口 P 的 套 接 字 ”。 (2) “ 套 接 字 S 上 绑 定 的 地 址 或 端口 ”。 
(3) “已 绑 定 的 地 址 或 端口 ”。 也 就 是 说 该 地 址 或 端口 已 为 某 个 套 接 字 
所 用 。 (4)“ 跟 端口 P (地 址 A) 一 块 绑 定 的 地 址 〈 端 口 ) "o 

(5) “ 套 接 字 S 已 绑 定 ”。 相 反 的 说 法 是 “ 套 接 字 S 未 绑 定 ”。 


@ 本 书 往 后 频繁 使 用 到 达 (arriving) 和 接收 (received) 这 两 个 修饰 
ij, 它们 具有 相同 的 舍 义 ， 只 是 视角 不 同 而 已 。 壁 如 说 一 个 分 组 的 到 
达 接 口 和 接收 接口 指 的 是 同一 个 接口 ， 前 者 在 接收 主机 以 外 看 竺 这 个 
接口 ， 后 者 在 接收 主机 以 内 看 待 这 个 接口 。 与 这 两 个 修饰 词 同 义 或 近 
义 的 还 有 外 来 (incoming 或 inbound) ， 反 义 的 有 外 出 (outgoing 或 
outbound) 和 发 送 (sending 或 sent) 。 其 中 received 和 sent 根 据 情况 也 译 
A BAY (Ar) 收取 的 和 (所 ) 送出 的 。 一 一 译 
1 


第 5 章 ” TCP 客户 /服务 器 程序 示例 
5.1 概述 


我 们 将 在 本 章 使 用 前 一 革 中 介绍 的 基本 函数 编写 一 个 完整 的 TCP 
答 广 / 服 务 句 程序 示例 o 这 个 稍 单 的 例子 是 执行 如 下 步骤 的 一 个 回 射 服 
A5 88: 

(1) P WERT A TEA ITXE, HERRAR: 

(2) 服务 器 从 网 络 输入 读 入 这 行文 本 ， 并 回 射 给 客户 : 

(3) 客户 从 网 络 输 入 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 。 


图 5-1 摘 述 了 这 个 位 单 的 客户 /服务 絮 ， 并 标 出 了 用 于 输入 和 输出 
AY ERB ° 


标准 输入 
[EI 


标准 输出 Rane 


图 5-1 简单 的 回 射 客户 / 服 务 器 


我 们 在 客户 与 服务 器 之 间 画 了 两 个 箭头 ， 不 过 它们 实际 上 构成 一 
个 全 双 工 的 TCP 连 接 。fgets 和 fputs 这 两 个 函数 来 自 标准 IO 函 数 
库 ，writen 和 readlLine 这 两 个 函数 详 见 3.9 节 » 

尽管 我 们 将 开发 自己 的 回 射 服务 器 实现 ， 大 多 数 TCP/IP 实 现 却 已 
经 提供 了 这 样 的 服务 器 ， 既 有 使 用 TCP 的 ， 又 有 使 用 UDP 的 (2.12 
P) 。 我 们 还 将 与 自己 的 客户 一 道 使 用 这 些 服务 器 。 
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[ALERT AAT IEE Rt BBP ee P RES I8] ER THD 
网 络 应 用 程序 例子 。 实 现任 何 客户 /服务 器 网 络 应 用 所 需 的 所 有 基本 步 


eA] TAR Bl ALAA o EREET FORK CARE, KR 
需 修改 服务 器 对 来 目 客 户 的 输入 的 处 理 过 程 。 


除了 以 正常 的 方式 运行 本 例子 的 客户 和 服务 器 ( 即 键入 一 行文 本 
并 观察 它 的 回 射 ) 之 外 ， 我 们 还 会 探讨 它 的 许多 边界 条 件 : 客户 和 服 
务 器 启动 时 发 生 什 么 ? 客户 正常 终止 时 发 生 什么 ? 铬 服务 右 进 程 在 客 
尸 之 前 终止 ， 则 客户 会 发 生 什么 ? GiB EA lain, WAP ATO 
A? 如 此 等 等 。 通 过 观察 这 些 情形 ， 弄 清 在 网 络 层次 发 生 什么 以 及 它 
们 如 何 反 映 到 套 接 子 API， 我 们 将 更 多 地 理解 这 些 层次 的 工作 原理 ， 
并 体会 如 何 编写 应 用 程序 代码 来 处 理 这 些 情形 。 


在 所 有 这 些 例子 中 ， 我 们 把 诸如 地 址 和 端口 之 类 特定 于 协议 的 常 
值 硬 编写 到 代码 中 。 这 么 做 有 两 个 原因 :一 古 我 们 必须 确切 了 解 在 特 
定 于 协议 的 地 址 结构 中 应 存放 什么 内 容 ， 二 是 我 们 尚未 讨论 到 可 以 使 
得 代码 更 便于 移植 的 库 函 数 ， 这 些 库 画 数 将 在 第 11 革 中 讨论 。 


我 们 现在 就 留言 ， 随 着 学 习 越 来 越 多 的 网 络 编程 知识 ， 我 们 将 在 
后 续 各 章 中 多 次 修改 本 章 的 客户 和 服务 器 程序 (图 1-12 和 图 1-13) ° 


5.2 TCPHIA IRS aster: mainERZ 


我 们 的 TCP 客 户 和 服务 器 程序 遵循 图 4-1 所 示 的 函数 调用 流程 。 图 
5-2 给 出 了 其 中 的 并 发 服务 器 程序 。 


tcecliservitepservül.c 


1 Fircluie "ung. bi" 

2 inl 

3 main(int argc, char *4arqu) 
4 

& 


int listentd, conn?d: 
€ pid t childpid; 
7 scexlen t cli-cn; 
€ Szxrac-c sockacdr in cliaddr, ssrvaddr. 
9 listenfd = Sccket'AP INET, SOCK SIRZAM, 01; 
10 bzero(&servacdr, sizeofise-vaddr]); 
11 servarkl: -nin family = AF INET; 
12 se rveukl- Win a dr s addr = hlan) (TNADNR_ANY) ; 
13 servađdr sin port = Atens (SERV PORT) ; 
14 Bindilisten=c, (=A *) aservaddr, sizeof (servedar)); 
15 Listen!listentz2, LISTENOQ!; 
16 foe ogg Ru 
17 cli.sn = sizeoficlisadar) ; 
18 connfd - Accepzilistenfi, [SA *! &@cliaddr, &clilen!; 
19 i= f (childpid = Fork() == 0) | /* child process */ 
20 Close'!l:stenfd;; J* close listening socket */ 
21 sl recs} ofermafa) : J* process the request af 
22 exit (Q); 
i3 
d4 Ulcsgs(connfd!; /* parent cloees connected socket */ 
us } 
26 : 


I7pcliservtzpservül.c 


图 5-2 TCP 回 射 服务 器 程序 (在 图 5-12 中 会 有 所 改进 ) 
创建 套 接 字 ， 捆 绑 服 务 器 的 众所周知 端口 


9-15 创建 一 个 TCP 套 接 字 。 在 待 捆 绑 到 该 TCP 套 接 字 的 网 际 网 
套 接 字 地 址 结构 中 填 入 通 配 地 址 (INADDR_ANY) 和 服务 器 的 众 所 周 
知 端 口 (SERV_PORT， 在 头 文件 unp .h 中 其 值 定义 为 9877) - HRA 
配 地 址 是 在 告知 系统 : 要 是 系统 是 多 宿主 机 ， 我 们 将 接受 目的 地 址 为 
任何 本 地 接口 的 连接 。 我 们 对 TCP 端 口号 的 选择 基于 图 2-10。 它 应 该 
比 1023 大 (我 们 不 需要 一 个 保留 端口 ， 比 5000 大 〈 以 免 与 许多 源 自 
Berkeley 的 实现 分 配 临 时 端口 的 范围 冲突 ) ， 比 49152 小 (以 免 与 临时 


端口 号 的 < 正确 "范围 冲突 ) ， 而 且 不 应 该 与 任何 已 注册 的 端口 冲突 。 
1isten 把 该 套 接 字 转 换 成 一 个 监听 套 接 字 。 


等 待 完成 客户 连接 

17-18 服务 器 阻塞 于 accept 调 用 ， 等 待 客 户 连接 的 完成 。 
并 发 服务 器 

19-24 fork 为 每 个 客户 派生 一 个 处 理 它们 的 子 进 程 。 正 如 我 们 


在 4.8 世 讨论 的 那样 ， 子 进程 关闭 监听 套 接 字 ， 父 进程 关闭 已 连接 套 接 
字 。 子 进程 接着 调用 str_echo (图 5-3) 处 理 客 户 。 


5.3 ”ITCP 回 射 服务 器 程序 : str echoEN 


图 5-3 所 示 的 str_echo 画 数 执行 处 理 每 个 客户 的 服务 ， 从 客户 读 
入 数据 ， 并 把 它们 回 射 给 客户 。@ 


lib/str. ecito.c 
1 H.uclude "uüup.li* 
2 void 


3 str ecbo(int sockfd) 
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5 ssizc t n; 

5 char buf [MAXLINFE] ; 

7 again: 

8 while ( (n = readisockfd. buf, MAXLINE)! > 0) 
y Wwriten(sockfd, buf, nl; 

iv i= (mn < C SE errno == EINTR) 

11 goto again; 

12 else if (n < 0) 


err sys! "str echo: read error"): 


libhsi echo.c 


图 5-3 str_echo 函 数 : 在 套 接 字 上 回 射 数据 
读 入 缓冲 区 并 回 射 其 中 内 容 

8-9 read 函 数 从 套 接 字 读 入 数据 ，writen 函 数 把 其 中 内 容 回 
射 给 客户 。 如 果 客 户 关 闭 连接 (这 是 正常 情况 ， 那 么 接收 到 客户 的 
FIN 将 导致 服务 器 子 进程 的 read 函 数 返 回 09， 这 又 导 致 str_echo 函 数 
的 返回 ， 从 而 在 图 5-2 中 终止 子 进程 。 


122~ 
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5.4 ITCP 回 射 客户 程序 : mainEN2A 


图 5-4 所 示 为 TCP 客 户 的 main 函 数 。 


tepelisenvtcpcli0l. 


1 $include "unp. h" 

= int 

3 main(int ange, cher raarrv) 

4 { 

5 iat sockfd; 

€ sirt SoOCkacdr in  servazdr; 

7 if (argc !- 2| 

£ err suit ("usage: tepeli eIPaddress»"): 

9 suckfd = Sockel (AF_INET, SOCK STREAM, 0!; 

10 bzero(&servaddr, sizeol!serzvaddr!); 

11 servadd-.sin family = AF INET; 

12 servaddr.sin port = ntons (SERV FORT); 

13 Inct pton(AF -NET, aàrgv[1], &scrvaddr.sin addy): 
14 Connect (sockfd, (SA *) &cexvaddr, sizeof |icervaddr)) ; 
15 err cli(scdin, secckfd): /* do it all */ 
16 exiríg): 

17 


图 5-4 ”TCP 回 射 客户 程序 
创建 套 接 字 ， 装 填 网 际 网 套 接 字 地 址 结构 


9-13 ”创建 一 个 TCP 套 接 字 ， 用 服务 器 的 IP 地 址 和 端口 号 装填 一 
个 网 际 网 套 接 字 地 址 结构 。 我 们 可 从 命令 行 参 数 取 得 服务 器 的 IP 地 
址 ， 从 头 文件 unp .h 取 得 服务 器 的 众所周知 端口 号 (SERV_PORT) 。 


连接 到 服务 器 


14-15 connect 建 立 与 服务 器 的 连接 。str_cli 了 画 数 (图 5- 
5) 完成 剩余 部 分 的 客户 处 理工 作 。 


55 TCPHHAAPRF: str clils2W 


H5-SPrARA st r_climnase MA PERE: 从 标准 输入 读 入 一 
RE EE TEARS SX IAAT ABI, FRETS Bl 
示 准 输 o 


Er clic 

1 &incliude "urp h" 
2 vaid 
3 str cli(FILE *fp, int sockf3) 
5 caar serzdliae[MAXLINE], recvline [MAXLINE] ; 
6 waile (Pgets{sendline, MAXLING. fg) |- NULL: | 
7 Writen{socxfd, sendline, strlen(sendlire)!; 
8 i= [Readliae(sockfd, recvline, MAXLINE) -~ 0) 
9 e r quit ("at Au o UE server terminated premacurely"} ; 
10 Fputs(recvline, stdout!; 
11 1 
12 + 

libtcir clic 


Als-5 str cliENZi: 客户 处 理 循环 


读 入 一 行 ， 写 到 服务 器 
6-7 fgets 读 入 一 行文 本 ，writen 把 该 行 发 送 给 服务 器 。 


从 服务 器 读 入 回 射 行 ， 写 到 标准 输出 

8-10 readline 从 服务 器 读 入 回 射 行 ，fputs 把 它 写 到 标准 输 
li 
返回 到 main 男 数 

11-12 ” 当 遇 到 文件 结束 符 或 错误 时 ，fgets 将 返回 一 个 空 指 
针 ， 于 是 客户 处 理 循 环 终止 。 我 们 的 Fgets 包 庄 函 数 检查 是 否 发 生 错 
误 ， 若 发 生 则 中 止 进程 ， 因 此 Fgets 只 是 在 过 到 文件 结束 符 时 才 返 回 


一 个 空 指针 。 
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5.6 ”正常 启动 


尽管 我 们 的 TCP 程 序 例子 很 小 (两 个 main 函 数 加 str_echo、 
str_cli、readline 和 writen， 总 共 约 150 行 代码 ) ， 然 而 对 于 我 
们 和 开 清 客户 和 服务 器 如 何 启动 ， 如 何 终止 ， 更 为 重要 的 是 当 发 生 某 些 
错误 (例如 客户 主机 崩 演 、 客 户 进 程 裔 演 、 网 络 连接 断 开 ， 等 等 ) 时 
将 会 发 生 什 么 ， 本 例子 却 至 关 重要 。 只 有 搞 清 这 些 边界 条 件 以 及 它们 
与 TCP/IP 协 议 的 相互 作用 ， 我 们 才能 写 出 能 够 处 理 这 些 情 况 的 健壮 的 
客户 和 服务 器 程序 。 


首先 ， 我 们 在 主机 Linux 上 后 台 启 动 服 务 器 。 


linux % tcpserv01 & 
[1] 17870 


服务 器 启动 后 ， 它 调用 socket、bind、1isten 和 accept， 并 
阻塞 于 accept 调 用 。 (我 们 还 没有 启动 客户 ) 。 在 启动 客户 之 前 ， 
我 们 运行 netstat 程 序 来 检查 服务 器 监听 套 接 字 的 状态 。 


linux % netstat -a 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
kak 


tcp 0 9 *:9877 LISTEN 

我 们 这 里 只 给 出 了 输出 的 第 一 行 〈 标 题 ) 以 及 我 们 最 关心 的 那 一 
行 。 本 命令 列 出 系统 中 所 有 套 接 字 的 状态 ， 可 能 有 大 量 输出 。 我 们 必 
须 指定 -a 标 志 以 查看 监听 套 接 字 。 


这 个 输出 正 是 我 们 所 期 望 的 : 有 一 个 套 接 字 处 于 LISTEN 状 态 ， 它 
有 通 配 的 本 地 IP 地 址 ， 本 地 端口 为 9877。netstat 用 星 号 “*? 来 表示 
一 个 为 0 的 IP 地 址 (INADDR_ANY， 通 配 地 址 ) 或 为 0 的 端口 号 。 


我 们 接着 在 同一 个 主机 上 局 动 客户， 并 指定 服务 硕 主 机 的 JP 地址 
为 127.0.0.1 〈 环 回 地址 ) 。 当然 我 们 也 可 以 指定 该 地 址 为 该 主机 的 普 
通 〈 非 环 回 ) IP 地 址 。 


linux % tcpcli01 127.0.0.1 


客户 调用 socket 和 connect， 后 者 引起 TCP 的 三 路 握手 过 程 。 
当 三 路 握手 完成 后 ， 客 户 中 的 connect 和 服务 器 中 的 accept 均 返 
回 ， 连 接 于 是 建立 。 接 着 发 生 的 步骤 如 下 : 


(1) 客户 调用 str_c1li 了 玉 数 ， 该 贸 数 将 阻塞 于 fgets 调 用 ， 因 为 
我 们 还 未 曾 键 入 过 一 行文 本 。 


(2) 当 服 务 器 中 的 accept 返 回 时 ， 服 务 器 调用 fork， 再 由 子 进程 
调用 str_echo。 该 函数 调用 readline，readline 调 用 read， 而 
read 在 等 待 客户 送 入 一 行文 本 期 间 阻塞 。 


(3) 男 一 方面 ， 服 务 絮 父 进程 再 次 调用 accept 并 阻塞 ， 等 待 下 一 
个 客户 连接 。 
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至 此 ， 我 们 有 3 个 都 在 睡眠 ( 即 已 阻塞 ) 的 进程 : 客户 进程 、 服 务 
An OCT REA ARS ni T ERE © 


当 三 路 握手 完成 时 ， 我 们 特意 首先 列 出 客户 的 步骤 ， 接 着 列 出 服 
务 器 的 步骤 。 从 图 2-5 中 可 知 其 原因 : 客户 接收 到 三 路 握手 的 第 二 个 分 
节 时 ，connect 返 回 ， 而 服务 磊 要 直到 接收 到 三 路 握手 的 第 三 个 分 广 
才 返 回 ， 即 在 connect 返 回 之 后 再 过 一 半 RITT 才 返回 。 


我 们 特意 在 同一 个 主机 上 运行 客户 和 服务 器 ， 因 为 这 是 试验 客户 / 
服务 器 应 用 程序 的 最 简单 方法 。 有 既然 我 们 是 在 同一 个 主机 上 运行 客户 
和 服务 器 ，netstat 给 出 了 对 应 所 建立 TCP 连 接 的 两 行 额 外 的 输出 。 


linux % netstat -a 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address 
State 
tcp 0 © localhost:9877 localhost:42758 
ESTABLISHED 

0 © localhost:42758 localhost :9877 
ESTABLISHED 
tcp 0 © *:9877 


第 一 个 ESTABLISHED 行 对 应 于 服务 恬 子 进程 的 套 接 字 ， 因 为 它 
的 本 地 端口 号 是 9877; 第 二 个 ESTABLISHED 行 对 应 于 客户 进程 的 套 
接 字 ， 因 为 它 的 本 地 端口 号 是 42758。 要 是 我 们 在 不 同 的 主机 上 运行 客 
户 和 服务 器 ， 那 么 客户 主机 就 只 输出 客户 进程 的 套 接 字 ， 服 务 句 主机 
也 只 输出 两 个 服务 絮 进 程 (一 个 父 进程 一 个 子 进程 ， 的 套 授 字 。 


我 们 也 可 用 ps 命令 来 检查 这 些 进程 的 状态 和 关系 。 


% ps -t pts/6 -o pid,ppid,tty,stat,args,wchan 
PPID TT STAT COMMAND WCHAN 
22036 pts/6 S -bash wait4 


22038 pts/6 S ./tcpserv0O1 wait for connect 
17870 pts/6 S ./tcpserv0O1 tcp data wait 
22038 pts/6 S ./tcpcliO01 127.0 read chan 


(我 们 已 使 用 ps 相当 特定 的 命令 行 参数 限定 它 只 输出 与 本 讨论 相 
关 的 信息 。) 从 输出 中 可 见 ， 客 户 和 服务 器 运行 在 同一 个 窗口 中 (BU 
pts/6， 表 示 伪 终端 号 6) 。PID 和 PPID 列 给 出 了 进程 间 的 父子 关系 。 
由 于 子 进程 的 PPID 是 父 进程 的 PID， 我 们 可 以 看 出 ， 第 一 个 
tcpserv901 行 是 父 进 程 ， 第 二 个 tcpserv01 行 是 子 进程 。 而 父 进 程 
的 PPID 是 shell (bash) 


我 们 所 有 三 个 网 络 进 程 的 STAT 列 都 是 “S”"， 表 明 进 程 在 为 等 待 某 
些 资源 而 睡眠 。 进 程 处 于 睡眠 状态 时 WCHAN 列 指出 相应 的 条 件 。 
Linux 在 进程 阻塞 于 accept 或 connect 时 ， 输 出 
wait for connect; 在 进程 阻塞 于 套 接 字 输入 或 输出 时 ， 输 出 
tcp data wait; 在 进程 阻 奢 于 终端 IO 时 ， 输 出 read_chan。 这 
里 我 们 的 三 个 网 络 进程 的 WCHAN 值 所 表示 的 意义 一 目 了 然 。 
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5.7 正常 终止 


至 此 连接 已 经 建立 ， 不 论 我 们 在 客户 的 标准 输入 中 键入 什么 ， 都 
Z IE ENE Aen ET HF o 


linux % tcpcliO1 127.0.0.1 我 们 已 经 给 出 过 本 行 
hello, world 现在 键入 这 一 行 
hello, world 这 一 行 被 回 射 回来 


good bye 
good bye 
AD <Ctr1+D> 是 我 们 的 终端 EOF 字 符 


我 们 键入 两 行 ， 每 行 都 得 到 回 射 ， 我 们 接着 键入 终端 EOF 字 符 
(Control-D) 以 终止 客户 。 此 时 如 果 立 即 执行 netstat 命 令 ， 我 们 将 
看 到 如 下 结 
linux % netstat -a | grep 9877 
© *:9877 E 


0 localhost:42758 localhost:9877 


TIME WAIT 


当前 连接 的 客户 端 〈 它 的 本 地 端口 号 为 42758) 进入 了 
TIME_WAIT 状 态 (2.78) ， 而 监听 服务 器 仍 在 等 待 另 一 个 客户 连 
feo (这 回 我 们 让 命令 netstat 的 输出 通过 管道 作为 grep 的 输入 ， 
i 与 服务 器 的 众所周知 端口 相关 的 文本 行 。 这 样 做 也 删 掉 了 
十 题 行 。 


我 们 可 以 总 结 出 正常 终止 客户 和 服务 器 的 步 又 。 


(1) 当 我 们 键入 EOF 字 符 时 ，fgets 返 回 一 个 空 指 针 ， 于 是 
str cli/NZX (图 5-5) 返回 。 


(2) str clix Hila mainit (图 5-4) 时 ，main 通 过 
调用 exit 终 止 。 


(3) 进程 终止 处 理 的 部 分 工作 是 关闭 所 有 打开 的 描述 符 ， 因 此 客户 
打开 的 套 接 字 由 内 核 天 闭 。 这 导致 客户 TCP 发 送 一 个 FIN 给 服务 器 ， 服 
务 器 TCP 则 以 ACK 响 应 ， 这 就 是 TCP 连 接 终 止 序列 的 前 半 部 分 。 至 
此 ， 服 务 器 套 接 字 处 于 CLOSE_WAIT 状 态 ， 客 户 套 接 字 则 处 于 
FIN_WAIT_2 状 态 (图 2-4 和 图 2-5) 


(4) 当 服务 器 TCP 接 收 FIN 时 ， 服 务 器 子 进程 阻塞 于 readline 调 
用 (图 5-3) ， 于 是 readline 返 回 0。 这 导致 str_echo 函 数 返 回 服务 
an T Emain Ay ° 


(5) 服务 器 子 进程 通过 调用 exit 来 终止 (图 5-2) 


(6) 服务 器 子 进程 中 打开 的 所 有 描述 符 随 之 关闭 。 由 子 进程 来 关闭 
已 连接 套 接 字 会 引发 TCP 连 接 终止 序列 的 最 后 两 个 分 节 : 一 个 从 服务 
句 到 客户 的 FIN 和 一 个 从 客户 到 服务 器 的 ACK (图 2-5) 。 至 此 ， 连 接 
完全 终止 ， 客 户 套 接 字 进入 TIME_WAIT 状 态 。 


(7) 进程 终止 处 理 的 男 一 部 分 内 容 是 :在 服务 右 子 进程 终止 时 ， 给 
父 进程 发 送 一 个 SIGCHLD 信 号 。 这 一 点 在 本 例 中 发 生 了 ， 但 是 我 们 没 
有 在 代码 中 捕获 该 信号 ， 而 该 信号 的 默认 行为 是 被 名 上 略 。 既 然 父 进程 
人 子 进程 于 是 进入 僵 死 状态 。 我 们 可 以 使 用 ps 命令 验证 这 一 
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linux % ps -t pts/6 -0 pid,ppid,tty,stat,args,wchan 


PID PPID TT STAT COMMAND WCHAN 
22038 22036 pts/6 S -bash read chan 
17870 22038 pts/6 S ./tcpserv0O1 
wait for connect 
19315 17870 pts/6 Z [tcpserv01 «defu do exit 


子 进程 的 状态 现在 是 Z (EREI) 


我 们 必须 请 理 僵 死 进程 ， 这 束 涉 及 Unix 信 号 的 处 理 。 我 们 将 在 下 
一 玉 概 述 信号 处 理 ， 在 下 一 世 继 续 我 们 的 例子 。 


5.8 ” POSIX 信号 处 理 


信号 (signal) 就 是 告知 某 个 进程 发 生 了 某 个 事件 的 通知 ， 有 时 也 
称 为 软件 中 断 (software interrupt) 。 信 号 通常 是 异步 发 生 的 ， 也 就 是 
说 进程 预先 不 知道 信号 的 准确 发 生 时 刻 。 


言 号 可 以 : 


。 由 一 个 进程 发 给 男 一 个 进程 “或 自身 ) ; 
。 由 内 核发 给 某 个 进程 。 


上 一 节 结 尾 提 到 的 SITGCHLD 信 号 就 是 由 内 核 在 任何 一 个 进程 终止 
时 发 给 它 的 父 进程 的 一 个 信号 。 


每 个 信号 都 有 一 个 与 之 关联 的 处 置 (disposition) ， 也 称 为 行为 
(action) 。 我 们 通过 调用 sigaction 函 数 ( 稍 后 讨论 ) 来 设 定 一 个 
音 号 的 处 置 ， 并 有 三 种 选择 。 


(1) 我 们 可 以 提供 一 个 函数 ， 只 要 有 特定 信和 号 发 生 它 束 被 调用 。 这 
MN HAAS ERR (signal handler) ， 这 种 行为 称 为 捕获 
(catching) 信号 。®% 有 两 个 信号 不 能 被 捕获 ， 它 们 是 SIGKILL 和 
SIGSTOP。 信 和 号 处 理 函 数 由 信和 号 值 这 个 单一 的 整数 参数 来 调用 ， 且 没 
有 权 回 值 ， 其 函数 原型 因此 如 下 : 


void handler(int signo); 


对 于 大 多 数 信 号 来 说 ， 调 用 sigaction 范 数 并 指定 信号 发 生 时 所 
调用 的 函数 就 是 捕获 信号 所 需 做 的 全 部 工作 。 不 过 我 们 稍 后 将 看 到 
SIGI0、SIGPOLL 和 SIGURG 这 些 个 别 信号 还 要 求 捕获 它们 的 进程 做 
些 额外 工作 。 


(2) 我 们 可 以 把 某 个 信号 的 处 置 设 定 为 STG_IGN 来 忽略 (ignore) 
它 。SIGKILL 和 SIGSTOP 这 两 个 信号 不 能 被 忽略 。 
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(3) 我 们 可 以 把 某 个 信号 的 处 置 设 定 为 SIG_DFL 来 启用 它 的 默认 
(default) 处 置 。 默 认 处 置 通常 是 在 收 到 信和 号 后 终止 进程 ， 其 中 某 些 
信号 还 在 当前 工作 目录 产生 一 个 进程 的 核心 映像 (core image， 也 称 为 
内 存 影 像 ) 。 另 有 个 别 信号 的 默认 处 置 是 忽略 ，SIGCHLD 和 SIGURG 
( 带 外 数据 到 达 时 发 送 ， 见 第 24 章 ) 就 是 本 书 中 出 现 的 默认 处 置 为 忽 

略 的 两 个 信号 。 


signal WAX 


建立 信号 处 置 的 POSIX 方 法 就 是 调用 sigaction 函 数 。 不 过 这 有 
点 复杂 ， 因 为 该 函数 的 参数 之 一 是 我 们 必须 分 配 并 填写 的 结构 。 简 单 
些 的 方法 就 是 调用 signal1 函 数 ， 其 第 一 个 参数 是 信号 名 ， 第 二 个 参 
数 或 为 指 癌 函数 的 指针 ， 或 为 常 值 SIG_IGN 或 SIG_DFL。 然 而 
signal 是 早 于 POSIX 出 现 的 历史 悠久 的 函数 。 调 用 它 时 ， 不 同 的 实现 
提供 不 同 的 信号 语义 以 达成 后 向 兼容 ， 而 POSIX 则 明确 规定 了 调用 
sigaction 时 的 信号 语义 。 我 们 的 解决 办 法 是 定义 自己 的 signal 画 
数 ， 它 只 是 调用 POSIX 的 Sigaction 函 数 。 这 就 以 所 期 望 的 POSIX 语 
义 提供 了 一 个 简单 的 接口 。 我 们 把 该 函数 以 及 早先 讲 过 的 err_XXX 函 
数 和 包 夺 函数 等 一 道 包含 在 自己 的 函数 库 中 ， 而 这 个 函数 库 在 我 们 构 
造 本 书 中 的 程序 时 指定 。 有 该 函数 如 图 5-6 所 示 。 (我 们 没有 给 出 它 的 
包 庄 函数 Signal， 因 为 不 论 它 调用 本 函数 还 是 厂家 提供 的 signal 画 
数 ， 歼 果 都 是 一 样 的 。) 


tib/stgnai.c 


1 #incluce "unp.h" 


2 Sigfunc * 

3 signa.(int signo, Sigtune *ftunc) 
4 1 

5 struc- sigection act, oact; 


€ act.ea handler = func; 

7 sigemotyset (Sact.sa_mwaak) ; 
& act.sa flags - 0; 

9 if (signo -- SIGALRN) [ 
10 fifdef SN INTERHUFE. 


ai act.sa_flags |= SA_INTERRUPT; /* SunOS 4.x */ 
12 @endif 

13 } eise [ 

14 #ifdef SA_RESTART 

15 act.sa_flags |= SA RESTART; /* SVR4, 4.4ESD */ 
16 $sndif 

17 ] 

18 if (sigaction{sions, &acz, &oact! « 0} 

19 return (STG ERE); 


20 returnicact.éa handler) ; 


lit/stenai.c 


图 5-6 ”调用 POSIX sigactionWansignal NA 
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用 typedef 简 化 函数 原型 
2-3 ” 芳 数 signal 的 正常 贸 数 原型 因 层 次 太 多 而 变 得 很 复杂 : 


void (*Signal(int signo, void (*func)(int)))(int); 
为 了 简化 起 见 ， 我 们 在 头 文件 unp ,h 中 定义 了 如 下 的 Sigfunc 类 


它 说 明 信 和 号 处 理 函 数 是 仅 有 一 个 整数 参数 且 不 返回 值 的 函数 。 
signal 的 函数 原型 于 是 变 为 : 


函数 的 第 二 个 参数 和 返回 值 都 是 指 癌 信号 处 理 函 数 的 指针 。 


设置 处 理 函 数 
6 sigaction 结 构 的 sa_handler 成 员 被 置 为 func 参 数 。 
设置 处 理 栈 数 的 信号 掩 码 


7 POSIX 人 允许 我 们 指定 这 样 一 组 信号 ， 它 们 在 信号 处 理 函 数 被 调 
用 时 阻塞 。® 任 何 阻 塞 的 信号 都 不 能 递交 (delivering) 给 进程 。 我 们 
把 sa_mask 成 员 设 置 为 空 集 ， 意 味 着 在 该 信号 处 理 函 数 运行 期 间 ， 不 
阻塞 额外 的 信号 。POSIX 保 证 被 捕获 的 信号 在 其 信号 处 理 函 数 运行 期 
间 总 是 阻塞 的 。 


设置 SA_RESTART 标 志 


8-17 SA_RESTART 标 志 是 可 选 的 。 如 果 设 置 ， 由 相应 信号 中 断 
的 系统 调用 将 由 内 核 自动 重启 。 (我 们 将 在 下 一 节 继 续 上 一 节 的 例子 
时 详细 讨论 被 中 断 的 系统 调用 。) 如 果 被 捕获 的 信号 不 是 SIGALRM 且 
SA_RESTART 有 定义 ， 我 们 就 设置 该 标志 。 〈 对 SIGALRM 进 行 特殊 处 
理 的 原因 在 于 : 产生 该 信号 的 目的 正如 14.2 节 将 讨论 的 那样 ， 通 常 是 
为 IO 操作 设置 超时 ， 这 种 情况 下 我 们 希望 受阻 塞 的 系统 调用 被 该 信号 
中 断 掉 。) 一 些 较 早 期 的 系统 (如 SunOS 4.x) 默认 设置 成 自动 重启 被 
中 断 的 系统 调用 ， 并 定义 了 与 SA_RESTART 互 补 的 SA_INTERRUPT 标 
志 。 如 果 定 义 了 该 标志 ， 我 们 就 在 被 捕获 的 信号 是 SIGALRM 时 设置 


mr 


已 o 
WifisigactionENAX 


18-20 我 们 调用 sigaction 函 数 ， 并 将 相应 信号 的 旧 行 为 作为 
signal 函 数 的 返回 值 。 


7S 78 fà fi FA 5-6 signal xX ° 
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我 们 把 符合 POSIX 的 系统 上 的 信号 处 理 总 结 为 以 下 几 点 。 


。 一旦 安装 了 信号 处 理 函 数 ， 它 便 一 直 安 装着 〈 较 早期 的 系统 是 每 
执行 一 次 就 将 其 拆除 ) ° 

。 在 一 个 信号 处 理 函 数 运 行 期 间 ， 正 被 递交 的 信号 是 阻塞 的 。 而 
且 ， 安 装 处 理 函 数 时 在 传递 给 sigaction 函 数 的 sa_mask 信 号 
集中 指定 的 任何 额外 信号 也 被 阻塞 。 在 图 5-6 中 ， 我 们 将 sa_mask 
置 为 空 集 ， 意 味 着 除了 被 捕获 的 信号 外 ， 没 有 额外 信号 被 阻塞 。 

。 如 果 一 个 信号 在 被 阻塞 期 间 产 生 了 一 次 或 多 次 ， 那 么 该 信号 被 解 
阻塞 之 后 通常 只 递交 一 次 ， 也 就 是 说 Unix 信 和 号 默认 是 不 排队 的 © 
我 们 将 在 下 一 市 查看 这 样 的 一 个 例子 。POSIX 实 时 标准 1003.1b 定 
义 了 一 些 排队 的 可 靠 信 号 ， 不 过 本 书 中 我 们 不 使 用 。 

。 利 用 sigprocmask 函 数 选 择 性 地 阻塞 或 解 阻 塞 一 组 信号 是 可 能 
的 。 这 使 得 我 们 可 以 做 到 在 一 段 临 界 区 代码 执行 期 间 ， 防 止 捕获 
某 些 信号 ， 以 此 保护 这 段 代 码 。 


5.9 ”处 理 STGCHLD 信 号 


iE (BSC (zombie) 状态 的 目的 是 维护 子 进程 的 信息 ， 以 便 父 进 
程 在 以 后 某 个 时 候 获 取 。 这 些 信息 包括 子 进程 的 进程 ID、 终 止 状态 以 
资源 利用 信息 (CPU 时 间 、 内 存 使 用 量 等 等 ) 。 如 果 一 个 进程 终 
止 ， 而 该 进程 有 子 进 程 处 于 僵 死 状态 ， 那 么 它 的 所 有 僵 死 子 进 程 的 父 
进程 ID 将 被 重 置 为 1 (init 进 程 ) 。 继 承 这 些 子 进程 的 Int 进程 将 清 

HEN (也 就 是 说 init 进 程 将 wait 它 们 ， 从 而 去 除 它 们 的 伪 死 状 
态 ) 。 有 些 Unix 系 统 在 ps 命令 输出 的 COMMAND 栏 以 <defunct> 指 
明 僵 死 进程 。 


处 理 僵 死 进程 


我 们 显然 不 愿意 留存 僵 死 进程 。 它 们 占用 内 核 中 的 空间 ， 最 终 可 
能 导致 我 们 耗 尽 进程 资源 。 无 论 何 时 我 们 fork 子 进程 都 得 wait 它 
们 ， 以 防 它们 变 成 僵 死 进程 。 为 此 我 们 建立 一 个 俘获 SIGCHLD 信 和 号 的 
言 号 处 理 函 数 ， 在 函数 体 中 我 们 调用 wait。 (我 们 将 在 5.10 节 介绍 
wait 和 waitpid 函 数 。) 通过 在 图 5-2 所 示人 代码 的 Listen 调 用 之 后 
增加 如 下 画 数 调用 : 


我 们 束 建 立 了 该 信号 处 理 画 数 。 (这 必须 在 fork 第 一 个 于 进程 之 
前 完成 ， 且 只 做 一 次 。) 我 们 接着 定义 名 为 Sig_ch1d 的 这 个 信和 号 处 
理 函 数 ， 如 图 5-7 所 示 。 


tepclserv/sigchldwail.c 


2 void 
3 gi2 chid(int signo 
5 pidt pic; 
E int stat; 
pid = wait (&stat) ; 
8 priutfi('chiló $d terminatedin", pid); 


return; 


iepeliserwsigeh!dwaii.c 


图 5-7” 调 用 wait 的 SIGCHLD 信 和 号 处 理 函 数 (在 图 5-11 中 会 有 所 改进 ) 


警告 : 在 信号 处 理 函 数 中 调用 诸如 printf 这 样 的 标准 MO 函数 是 
不 合适 的 ， 其 原因 将 在 11.18 攻 讨论 。 我 们 在 这 里 调用 printf 只 是 作 
为 查看 子 进程 何 时 终止 的 诊断 手段 。 


在 System V 和 Unix 98 标 准 下 ， 如 果 一 个 进程 把 SIGCHLD 的 处 置 设 
定 为 SIG_IGN， 它 的 子 进程 就 不 会 变 为 僵 死 进程 。 不 地 的 是 ， 这 种 做 
法 仅仅 适用 于 System V 和 Unix 98， 而 POSIX 明 确 表示 没有 规定 这 样 
做 。 处 理 僵 死 进程 的 可 移植 方法 驶 是 捕获 SIGCHLD， 并 调用 wait 或 


waitpid ° 


在 Solaris 9 下 如 此 编译 本 程序 : 以 图 5-2 中 代码 为 基础 ， 加 上 对 
Signal 的 调用 以 及 我 们 的 sig_ch1d 信 息 处 理 函 数 ， 而 且 所 用 的 
signal 函 数 来 自 系统 自 带 的 函数 库 (而 不 是 图 5-6 中 的 版 本 ) 。 我 们 
将 有 如 下 结果 : 


solaris % tcpserv02 & 在 后 台 局 动 服务 器 
[2] 16939 
solaris % tcpclio1 127.0.0.1 再 在 前 台 启 动 客户 
hi there 我 们 键入 这 一 行 

hi there 这 一 行 被 回 射 回来 


AD 我 们 键入 EOF 字 符 
child 16942 terminated 这 是 信号 处 理 函 数 中 printf 的 输 
出 


accept error: Interrupted system call Amain ätt ETAT 


具体 的 各 个 步 又 如 下 : 


(1) 我 们 键入 EOF 字 符 来 终止 客户 。 客 户 TCP 发 送 一 个 FIN 给 服务 
ar, Ak afl by LA—~SACK e 


(2) 收 到 客户 的 FIN 导 致 服务 器 TCP 递 送 一 个 EOF 给 子 进程 阻塞 中 
的 readline， 从 而 子 进程 终止 。 


(3) 当 SIGCHLD 信 和 号 递交 时 ， 父 进程 阻塞 于 accept 调 用 。 
sig chld&wR 〈 信 号 处 理 函 数 ) 执行 ， 其 wait 调 用 取 到 子 进程 的 
PID 和 终止 状态 ， 随 后 是 printf 调 用 ， 最 后 返回 。 


(4) 既然 该 信号 是 在 父 进程 阻塞 于 慢 系统 调用 (accept) 时 由 父 
进程 捕获 的 ， 内 核 就 会 使 accept 返 回 一 个 EINTR 错 误 〈 被 中 断 的 系 
统 调用 ) 。 而 父 进程 不 处 理 该 错误 〈 图 5-2) ， 于 是 中 止 。 
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这 个 例子 是 为 了 说 明 ， 在 编写 捕获 信号 的 网 络 程序 上 时， 我 们 必须 
认 清 被 中 断 的 系统 调用 且 处 理 它 们 。 在 这 个 运行 在 Solaris 9 环境 下 特定 
例子 中 ， 标 准 C 画 数 库 中 提供 的 signal 画 数 不 会 使 内 核 自 动 重启 被 中 
断 的 系统 调用 。 也 就 是 说 ， 我 们 在 图 5-6 中 设置 的 SA_RESTART 标 志 在 
系统 函数 库 的 signal 函 数 中 并 没有 设置 。 男 有 些 系 统 自 动 重启 被 中 
断 的 系统 调用 。 如 果 我 们 在 4.4BSD 环 境 下 照样 使 用 系统 函数 库 版 本 的 
signal 画 数 运 行 上 述 例子 ， 那 么 内 核 将 重启 被 中 断 的 系统 调用 ， 于 
是 accept 不 会 返回 错误 。 我 们 定义 自己 的 signal 函 数 (图 5-6) 并 在 
贯穿 全 书 使 用 的 理由 之 一 就 是 应 对 不 同 操作 系统 之 间 的 这 个 潜在 问 


题 。 


作为 本 书 使 用 的 编程 约定 之 一 ， 我 们 总 是 在 信号 处 理 函 数 中 显 式 
给 出 return 语 句 (图 5-7) ， 即 使 对 于 返回 值 类 型 为 void 的 信号 处 理 
函数 而 言 ， 从 函数 结尾 处 掉 出 和 执行 return 语 名 效果 十 一 样 的 ， 我 
们 也 还 是 为 其 使 用 return 语 句 。 这 么 一 来 ， 当 某 个 系统 调用 被 我 们 
编写 的 某 个 信号 处 理 函 数 中 断 时 ， 我 们 融 可 以 得 知 该 系统 调用 具体 是 
被 哪个 信号 处 理 函 数 的 哪个 return 语 名 中断 的 。 


处 理 被 中 断 的 系统 调用 


我 们 用 术语 慢 系 统 调 用 (slow system call) 描述 过 accept 函 数 ， 
该 术语 也 适用 于 那些 可 能 永远 阻塞 的 系统 调用 。 永 远 阻 塞 的 系统 调用 
是 指 调用 有 可 能 永远 无 法 返回 ， 多 数 网 络 文 持 函数 都 属于 这 一 类 。 举 
例 来 说 ， 如 果 没 有 客户 连接 到 服务 器 上， 那么 服务 絮 的 accept 调 用 
就 没有 返回 的 保证 。 类 似 地 ， 在 图 5-3 中 ， 如 果 客 户 从 未 发 送 过 一 行 要 
求 服务 絮 回 射 的 文本 ， 那 么 服务 器 的 read 调 用 将 永 不 返回 。 其 他 慢 系 
统 调 用 的 例子 是 对 管道 和 终端 设备 的 读 和 写 。 一 个 值得 注意 的 例外 是 
ee 它们 一 般 都 会 返回 到 调用 者 〈 假 设 没有 灾难 性 的 硬件 故 
Š) o 


适用 于 慢 系 统 调用 的 基本 规则 是 : 当 阻 塞 于 某 个 慢 系 统 调用 的 一 
个 进程 捕获 某 个 信号 且 相 应 信号 处 理 函 数 返 回 时 ， 该 系统 调用 可 能 返 
回 一 个 EINTR 错 误 。 有 些 内 核 自 动 重启 某 些 被 中 断 的 系统 调用 。 不 过 
为 了 便于 移植 ， 当 我 们 编写 捕获 信号 的 程序 时 (多 数 并 发 服务 器 捕获 
SIGCHLD) ， 我 们 必须 对 慢 系统 调用 返回 EINTR 有 所 准备 。 移 植 性 问 
题 是 由 早期 使 用 的 修饰 词 * 可 能 ”\“ 有 些 ” 和 对 POSIX 的 SA_RESTART 
标志 的 文 持 是 可 选 的 这 一 事实 造成 的 。 即 使 某 个 实现 文 持 
SA_RESTART 标 志 ， 也 并 非 所 有 被 中 断 系 统 调用 都 可 以 目 动 重 局 。 举 
例 来 说 ， 大 多 数 源 自 Berkeley 的 实现 从 不 自动 重启 select， 其 中 有 些 
实现 从 不 重启 accept 和 recvfrom。 
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为 了 处 理 被 中 断 的 accept， 我 们 把 图 5-2 中 对 accept 的 调用 从 
for 循 环 开 始 改 起 ， 如 下 所 示 : 


for ( ; ; ) 
clilen - sizeof(cliaddr); 
if ( (connfd - accept(listenfd, (SA *) &cliaddr, &clilen)) « 0) 


if (errno -- EINTR) 

continue; /* back to for() */ 
else 

err sys("accept error"); 


注意 ， 我 们 调用 的 是 accept 了 画 数 本 身 而 不 是 它 的 包 庄 函数 
Accept， 因 为 我 们 必须 目 己 处 理 该 男 数 的 失败 情况 。 


这 段 代 码 所 做 的 事情 残 是 目 己 重启 被 中 断 的 系统 调用 。 对 于 
accept 以 及 诸如 read、write、select 和 open 之 类 函数 来 说 ， 这 
是 合适 的 。 不 过 有 一 个 函数 我 们 不 能 重启 : connect“。 如 有 果 该 函数 返 
加 EINTR， 我 们 就 不 能 再 次 调用 它 ， 否 则 将 立即 返回 一 个 错误 。 当 
connect 被 一 个 捕获 的 信号 中 断 而 且 不 自动 重启 〈TCPv2 第 466 页 ) 
时 ， 我 们 必须 调用 select 来 等 待 连接 完成 ， 如 16.3 节 所 述 。 


5.10 waitclwaitpidENZK 
在 图 5.7 中 ， 我 们 调用 了 而 数 wait 来 处 理 已 终止 的 子 进程 。 


#include «sys/wait.h» 
pid t wait(int *statloc); 
pid t waitpid(pid t pid, int *statloc, int options); 


均 返 回 ， 若 成 功 则 为 进程 


ID， 大 出错 则 为 6 或 -1 


函数 wait 和 waitpid 均 返回 两 个 值 : 已 终止 子 进 程 的 进程 ID 
号 ， 以 及 通过 statioc 指 针 返 回 的 子 进程 终止 状态 〈 一 个 整数 ) 。 我 们 
可 以 调用 三 个 宏 来 检查 终止 状态 ， 并 辨别 子 进 程 是 正常 终止 、 由 某 个 
信号 杀 死 还 是 仅仅 由 作业 控制 停止 而 已 。 另 有 些 宏 用 于 接着 获取 子 进 
程 的 退出 状态 、 杀 死 子 进程 的 信号 值 或 停止 子 进 程 的 作业 控制 信号 
值 。 在 图 15-10 中 ， 我 们 将 为 此 目的 使 用 安 WIFEXITED 和 
WEXITSTATUS 。 


如 果 调 用 wait 的 进程 没有 已 终止 的 子 进 程 ， 不 过 有 一 个 或 多 个 子 
进程 仍 在 执行 ， 那 么 wait 将 阻塞 到 现 有 子 进 程 第 一 个 终止 为 止 。 


waitpid 郴 数 就 等 待 哪个 进程 以 及 是 否 阻塞 给 了 我 们 更 多 的 控 
制 。 首 先 ，pid 参 数 允 许 我 们 指定 想 等 待 的 进程 ID ， 值 -1 表示 等 待 第 一 
个 终止 的 子 进程 。 ( 男 有 一 些 处 理 进程 组 ID 的 可 选 值 ， 不 过 本 书 中 用 
不 上 。) 其 次 ，options 参 数 允 许 我 们 指定 附加 选项 。 最 常用 的 选项 是 
WNOHANG， 它 告知 内 核 在 没有 已 终止 子 进程 时 不 要 阻塞 。 
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WAwait MwaitpidhkF 


我 们 现在 图 示 出 函数 wait 和 waitpid 在 用 来 清理 已 终止 子 进程 
时 的 区 别 。 为 此 ， 我 们 把 TCP 客 户 程序 修改 为 如 图 5-9 所 示 。 客 户 建立 
5 个 与 服务 句 的 连 授 ， 随 后 在 调用 str_cli 画 数 时 仅 用 第 一 个 连接 


(sockfd[0]) 。 建 立 多 个 连接 的 目的 是 从 并 发 服务 器 上 派生 多 个 子 
进程 ， 如 图 5-8 所 示 。 


客户 
服务 器 Ras) “| 服务 器 | [mee] [mes 
父 进程 了 进程 2 ”| 了 进程 3| 。 | 了 进程 4 。 | 了 进程 


图 5-8 与 同一 个 并 发 服务 器 建立 了 5 个 连接 的 客户 


tepclisenvtcpcli04.c 


1 Hinclude "unp.a* 

2 int 

3 main(int arac, char **argv) 

a{ 

5 int i, sockfd[5]; 

6 struct sockaddr_in servaddr; 

7 if {arge l= 2) 

8 err quit ("usage: tczcli <LPaddreee>") ; 

9 for (i = 0; i < 5; ie { 

16 aockfd[i] = Sneker ‘DF TNET, SOCK_STRFAM, 01; 

11 2zorc;ascrvadd-, sizcof (servadar) ji 

12 servaddr.sin_family = AT INET; 

12 servaddr.sin_port ~ hzoas(SERV PORT'; 

14 Inst pLou(AF INET, argv[1], &servacdr.sin addr); 
15 Connecticocktfd[i], (SA *) &scervaddr, ciscot icervaddr) ) ; 
1€ ) 

17 str cli[etdin, sockfd[0]); /* do il all 4/ 

18 exit (0); 

19 } 


tenclisenwtepcli04.c 
图 5-9 与 服务 器 建立 了 5 个 连接 的 TCP 客 户 程序 
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当 客 户 终止 时 ， 所 有 打开 的 描述 符 由 内 核 自动 关闭 (我 们 不 调用 
close, DUHHexit) ， 且 所 有 5 个 连接 基本 在 同一 时 刻 终止 。 这 就 
引发 了 5 个 FIN， 每 个 连接 一 个 ， 它 们 反 过 来 使 服务 器 的 5 个 子 进程 基 
本 在 同一 时 刻 终止 。 这 又 导致 差不多 在 同一 时 刻 有 5 个 STGCHLD 信 号 
递交 给 父 进 程 ， 如 图 5-10 所 示 。 


SIGCHLD 


SICCHLD 


| store 
8IGCHLO | 
REG IE 2r | 


进程 5 
图 5-10 ”客户 终止 ， 关 闭 5 个 连接 ， 终 止 5 个 子 进程 


正 征 这 种 同一 信号 多 个 实例 的 递交 造成 了 我 们 即将 查看 的 问题 。 


我 们 首先 在 后 台 运 行 服务 器 ， 接 着 运行 新 的 客户 。 我 们 的 服务 器 
程序 由 图 5-2 修 改 而 来 ， 它 调用 signal1 画 数 ， 把 图 5-7 中 的 函数 建立 为 
SIGCHLD 的 信号 处 理 函 数 。 


linux % tcpserv03 & 
[1] 20419 
linux % tcpcli04 127.0.0.1 
我 们 键入 这 一 行 
这 一 行 被 回 射 回 来 
我 们 再 键入 EOF 字 符 
child 20426 terminated 这 是 服务 器 的 输出 


我 们 注意 到 的 第 一 件 事 是 只 有 一 个 printf 输 出 ， 而 当时 我 们 预 
期 所 有 5 个 子 进程 都 终止 了 。 如 果 运 行 ps， 我 们 将 发 现 其 他 4 个 子 进程 
仍然 作为 僵 死 进程 存在 着 。 


TIME COM 
00:00:00 tcpserv03 
00:00:00 tcpserv03 <defunct> 


00:00:00 tcpserv03 <defunct> 
00:00:00 tcpserv03 <defunct> 
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“Ma SEE GEER Pel wai tse ec EAD; 1E t BUREAU 
进程 。 本 问题 在 于 : Pras Ma S AE C EE RUT ZBI, "JU 


E TARE 数 只 执行 一 次 ， 因 为 Unix 信 号 一 般 是 不 排队 的 。 更 严重 的 
是 ， 本 问题 是 不 确定 的 。 在 我 们 刚刚 运行 的 例子 中 ， ZP 5I S STE 
同一 个 主机 上 ， 信 和 号 处 理 函 数 执行 1 次 ， 留 下 4 个 僵 死 进程 。 但 是 如 果 
我 们 在 不 同 的 主机 上 运行 客户 和 服务 器 ， 那么 信 号 处 理 丽 数 一 般 执行 2 
次 : 一 次 是 第 一 个 产生 的 信和 号 引起 的 ， 由 于 另外 4 个 信号 在 信号 处 理 函 
数 第 一 次 执行 时 发 生 ， 因 此 该 处 理 函 数 仅 仅 再 被 调用 一 次 ， 从 而 留 下 3 
个 僵 死 进程 。 不 过 有 的 时 候 ， 依 赖 于 FIN 到 达 服 务 器 主机 的 时 机 ， 信 

号 处 理 函 数 可 能 会 执行 3 次 甚至 4 次 。 


正确 的 解决 办 法 是 调用 waitpid 而 不 是 wait， 图 5-11 给 出 了 正确 
处 理 SIGCHLD 的 sig_ch1d 函 数 。 这 个 版 本 管用 的 原因 在 于 : 我 们 在 
一 个 循环 内 调用 waitpid， 以 获取 所 有 已 终止 子 进程 的 状态 。 我 们 必 
须 指定 WNOHANG 选 项 ， 它 告知 waitpid 在 有 尚未 终止 的 子 进程 在 运行 
时 不 要 阻塞 。 我 们 在 图 5-7 中 不 能 在 循环 内 调用 wait， 因 为 没有 办 法 
防止 wait 在 正 运行 的 子 进程 尚 有 未 终止 时 阻塞 。 


tcpcliserv/sitgchidwotpid.c 


1 £ircluce "urip.li" 
2 void 
2 ois chlid(int signo 
4 | 
pid t pic; 
t int etat; 
ee cu MM; MEN. "—2.9 8$ 
f pz f(*-hild $d te nated\n", pid) 
return; 


lopelizenwesigchidwoiuvid.c 


图 5-11 JY 


uH 


JwaitpidWansig_chldweuss (正确 ) 版 本 


图 5-12 给 出 了 我 们 的 服务 器 程序 的 最 终 版 本 。 它 正确 处 理 accept 
返回 的 EINTR， 并 建立 一 个 给 所 有 已 终止 子 进程 调用 waitpid 的 信号 
处 理 函 数 (图 5-11) 


Iopbcliservtopservüs. c 


1 Hiuclude 'unp.i" 
2 int 
3 main(int argc, char **arqv) 


4 { 

5 int. liatenfd, connfa; 

6 pid t childpid; 

7 Sockler t -2.ilon; 

8 struct sockaddr in cl:sddr, servaddr; 
8 void gig _chid(inr); 


109 liscenfd - Sccxet (AF INET, SOZK STREAM, O); 

11 brero(S&servaddr, sizeozissrvacdr]); 

12 servedcr.sin fanily = AF INET; 

13 servedcr.sin addr.s addr = htonl;INADDR ANY; ; 

14 servadcr.sin pert = htons(SERV PORT}; 

15 Bindilistenfd, [SA +] &servzdir, sizeof (servaddar)); 

16 Lis-en(listenfd, LISTENQ! ; 

17 Signael(SIGCHLD, sig chld!; /* must call waitpidi! */ 

18 for ipy) 

19 clilen = sizeof (cl:addr) ; 

20 if o1 [oxxmfd = accept is enfd, (SA < &cliaddr, &clilen|) e 4) { 
21 if {errno == EINTE] 

22 continue; /* back tc fori) */ 

23 alse 

24 err sysi'accept errcr"); 

25 ) 

26 if | [childpid - Fork) -- 0} [ /* child process */ 
25 Maose(listentd! ; J* close "igreni g socket */ 
28 str echo(connfd): /* process the request */ 

ao exit (0! ; 

30 H 

31 Muse [oan fel) 3 /* parent closes canmecke socket 4/ 
32 ) 

33 ] 


topeliserwtopserv04.c 


图 5-12 ”处 理 accept 返 回 EINTR 错 误 的 TCP 服 务 器 程序 最 终 (正确 ) 版 本 
本 市 的 目的 是 示范 我 们 在 网 络 编程 时 可 能 会 遇 到 的 三 种 情况 : 
(1) 当 fork 子 进程 时 ， 必 须 捕 获 SIGCHLD 信 与; 

(2) 当 捕 获 信 号 时 ， 必 须 处 理 被 中 断 的 系统 调用 |; 


(3) SIGCHLD 的 信和 号 处 理 画 数 必须 正确 编写 ， 应 使 用 waitpid 画 
数 以 免 留 下 僵 死 进程 。 


我 们 的 TCP 服 务 器 程序 最 终 版 本 (图 5-12) 加 上 图 5-11 的 
SIGCHLD 信 号 处 理 函 数 能 够 处 理 上 述 三 种 情况 。 


5.11 acceptik Fl pee Fit 


类 似 于 前 一 市 中 介绍 的 被 中 断 系 统 调用 的 例子 ， 男 有 一 种 情形 也 
能 够 导致 accept 返 回 一 个 非 致命 的 错误 ， 在 这 种 情况 下 ， 只 需要 再 
次 调用 accept。 图 5-13 中 所 示 的 分 组 序列 在 较 忙 的 服务 器 (典型 的 是 
较 忙 的 Web 服 务 器 ) 上 已 出 现 过 。 
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客户 服务 器 
| socket , bind, listen 
socket LISTEN (424777) 
connect (HÆ) —— — — — — SYN 


me SYN KCVD 
SYN, ACK ge a 
e 


—— 


connec LIK [A] 44—— 


ESTABLISHED 


Ui i] accept 


图 5-13 ESTABLISHED 状 态 的 连接 在 调用 accept 之 前 收 到 RST 


这 里 ， 三 路 握手 完成 从 而 连接 建立 之 后 ， 客 户 TCP 却 发 送 了 一 个 
RST (ZM) 。 在 服务 器 端 看 来 ， 束 在 该 连接 已 由 TCP 排 队 ， 等 着 服 
务 絮 进程 调用 accept 的 时 候 RST 到 达 。 稍 后 ， 服 务 器 进程 调用 
accept ° 


模拟 这 种 情形 的 一 个 简单 方法 就 是 : 启动 服务 器 ， 让 它 调 用 
socket、bind 和 1isten， 然 后 在 调用 accept 之 前 睡眠 一 小 段 时 
间 。 在 服务 器 进程 睡眠 时 ， 启 动 客户 ， 让 它 调用 socket 和 
connect。 一 旦 connect 返 回 ， 就 设置 SO_LINGER 套 接 字 选项 以 产 
生 这 个 RST (我 们 将 在 7.5 广 讨论 该 套 接 字 选 项 ， 并 在 图 16-21 中 给 出 一 
个 例子 ， 然 后 终止 。 


(Bæ, "fep hESC HE LE AER A I] ASCE o YR 
Berkeley J SENSES TEATS FEE LAER, ARS aE AA 
到 。 然 而 大 多 数 SVR4 实 现 返回 一 个 错误 给 服务 器 进程 ， 作 为 accept 
的 返回 结果 ， 不 过 错误 本 号 取决 于 实现 。 这 些 SVR4 实 现 返 回 一 个 
EPROTO (“protocol error”"”， 协 议 错 误 ) errno 值 ， 而 POSIX 指 出 返回 
的 errno 值 必须 是 ECONNABORTED (“software caused connection 
abort”， 软 件 引 起 的 连接 中 止 ) 。POSIX 作 出 修改 的 理由 在 于 : MTA 
Zi (streams subsystem) 中 发 生 某 些 致命 的 协议 相关 事件 时 ， 也 会 返回 
EPROT0。 要 是 对 于 由 客户 引起 的 一 个 已 建立 连接 的 非 致命 中 止 也 返 
回 同样 的 错误 ， 那 么 服务 絮 束 不 知道 该 再 次 调用 accept 还 是 不 该 
了 。 换 成 ECONNABORTED 错 误 ， 服 务 絮 束 可 以 忽略 它 ， 再 次 调用 
acceptii7T » 


源 自 Berkeley 的 内 核 从 不 把 该 错误 传递 给 进程 的 做 法 所 涉及 的 步 
又 在 TCPv2 中 得 到 阐述 。 引 发 该 错误 的 RST 在 第 964 页 得 到 处 理 ， 导 致 
tcp_close 被 调用 。 该 函数 在 第 897 页 调用 in_pcbdetach， 它 又 转 
而 在 第 719 页 调用 sofree。sofree 画 数 (第 473 页 ) 发 现 待 中 止 的 连 
接 仍 在 监听 套 接 字 的 已 完成 连接 队列 中 ， 于 是 从 该 队列 中 删除 该 连 
接 ， 并 释放 相应 的 已 连接 套 接 字 。 当 服务 器 最 终 调用 accept 函 数 
a 经 有 一 个 已 完成 的 连接 稍 后 被 从 已 完成 连接 队列 

Ie 
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在 16.6 世 我 们 将 再 次 回 到 这 些 中 止 的 连 授 ， 碍 看 在 与 select 函数 
和 正常 阻塞 模式 下 的 监听 确 接 字 组 合 时 它们 是 如 何 成 为 问题 的 。 


5.12 ”服务 器 进程 终止 


现在 启动 我 们 的 客户 /服务 器 对 ， 然 后 儿 死 服务 器 子 进程 。 这 是 在 模拟 
服务 器 进程 和 朋 省 的 情形 ， 我 们 可 从 中 查看 客户 将 发 生 什 么 。 (我 们 必须 小 
心 区 别 即将 讨论 的 服务 器 进程 朋 演 与 将 在 5.14 廊 讨论 的 服务 器 主机 崩 
it) 所 发 生 的 步骤 如 下 所 述 。 


(1) 我 们 在 同一 个 主机 上 局 动 服务 器 和 客户 ， 并 在 客户 上 键入 一 行文 
本 ， 以 验证 一 切 正常 。 正 靖 情 况 下 该 行文 本 由 服务 右 子 进程 回 射 给 客户 。 


(2) 找到 服务 器 子 进 程 的 进程 ID， 并 执行 ki11 命 令 杀 死 它 。 作 为 进程 
终止 处 理 的 部 分 工作 ， 子 进程 中 所 有 打开 着 的 描述 符 都 被 关闭 。 这 就 导致 
向 客户 发 送 一 个 FIN， 而 客户 TCP 则 响应 以 一 个 ACK。 这 就 是 TCP 连 接 终 
止 工作 的 前 半 部 分 


(3) SIGCHLD 信 号 被 发 送 给 服务 器 父 进 程 ， 并 得 到 正确 处 理 (图 5- 


12) 

(4) 客户 上 没有 发 生 任 何 特殊 之 事 。 客 户 TCP 接 收 来 和 目 服 务 器 TCP 的 
FIN 并 响应 以 一 个 ACK， 然 而 问题 是 客户 进程 阻塞 在 fgets 调 用 上 ， 等 竺 
从 终端 接收 一 行文 本 。 


(5) 此 时 ， 在 另外 一 个 窗口 上 运行 hetstat 命 令 ， 以 观察 套 接 字 的 状 


xX 
JON 


linux % netstat -a | grep 9877 
tcp 0 © *:9877 eU 


LISTEN 

tcp 0 © localhost :9877 localhost : 43604 
FIN_WAIT2 

tcp 1 © localhost :43604 localhost :9877 
CLOSE_WAIT 


参照 图 2-4， 我 们 看 到 TCP 连 接 终止 序列 的 前 半 部 分 已 经 完成 。 
mU Ora en M E 


linux % tcpcli01 127.0.0.1 启动 客户 


hello 键入 第 一 行文 本 


hello 它 被 正确 回 射 


在 这 儿 杀 死 服务 器 子 进程 
another line 然后 键入 下 一 行文 本 
str_cli: server terminated prematurely 


当 我 们 键入 “another line” 时 ，str_cl1i 调 用 writen， 客 户 TCP 接 着 把 
数据 发 送 给 服务 右 。TCP 人 允许 这 么 做 ， 因 为 客户 TCP 接 收 到 FIN 只 是 表示 服 
务 右 进程 已 关闭 了 连接 的 服务 历 端 ， 从 而 不 再 往 其 中 发 送 任何 数据 而 已 。 
FIN 的 接收 并 没有 告知 客户 TCP 服 务 器 进程 已 经 终止 〈 本 例子 中 它 确 实 是 
终止 了 ) 。 在 6.6 节 讨论 TCP 的 半 关 闭 时 我 们 将 再 次 论述 这 一 点 。 
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当 服务 器 TCP 接 收 到 来 自 客户 的 数据 时 ， 既 然 先前 打开 那个 套 接 字 的 
进程 已 经 终止 ， 于 是 啊 应 以 一 个 RST ° 通过 使 用 tcpdump 来 观察 分 组 ， 我 
们 可 以 验证 该 RST 确 实 发 送 了 。 


(7) 然而 客户 进程 看 不 到 这 个 RST， 因 为 它 在 调用 writen 后 立即 调用 
readline， 并 且 由 于 第 2 步 中 接收 的 FIN， 所 调用 的 readline 立 即 返 回 0 
(表示 EOF) 。 我 们 的 客户 此 时 并 未 预期 收 到 EOF (图 5-5) ， 于 是 以 出 错 


信息 “server terminated prematurely”( 服 务 器 过 早 终止 ) 退出 。 


(8) 当 客 户 终止 时 (通过 调用 图 5-5 中 的 err_quit) ， 它 所 有 打开 着 
的 描述 符 都 被 关闭 。 


我 们 的 上 述 讨 论 还 取决 于 本 例子 的 时 序 。 客 户 调用 readline 既 可 能 
发 生 在 服务 器 的 RST 被 客户 收 到 之 前 ， 也 可 能 发 生 在 收 到 之 后 。 如 果 
readline 发 生 在 收 到 RST 之 前 (如 本 例子 所 示 ) ， 那 么 结果 是 客户 得 到 
一 个 未 预期 的 EOF; 否则 结果 是 由 readline 返 回 一 个 ECONNRESET 
(“connection reset by peer”"， 对 方 复 位 连接 错误 ) 。 


本 例子 的 问题 在 于 : 当 FIN 到 达 套 接 字 时 ， 客 户 正 阻塞 在 fgets 调 用 
上 上。 客户 实际 上 在 应 对 两 个 描述 符 一 一 套 接 字 和 用 户 输入 ， 它 不 能 单纯 阻 
塞 在 这 两 个 源 中 某 个 特定 源 的 输入 上 《〈 正 如 目前 编写 的 Str_c1i 函 数 所 
为 ) ， 而 是 应 该 阻塞 在 其 中 任何 一 个 源 的 输入 上 。 事 实 上 这 正 是 select 
和 pol1 这 两 个 函数 的 目的 之 一 ， 我 们 将 在 第 6 章 中 讨论 它们 。 我 们 在 6.4 节 
重新 编写 str_cli 泵 数 之 后 ， 一 旦 杀 死 服务 器 子 进程 ， 客 户 就 会 立即 被 告 
知已 收 到 FIN 。 


5.13 SIGPIPE 信 号 


要 是 客户 不 理会 read1line 函 数 返 回 的 错误 ， 有 反而 写 入 更 多 的 数 
据 到 服务 右上 ， 那 又 会 发 生 什 么 呢 ? 这 种 情况 是 可 能 发 生 的， 举例 来 
说 ， 客 户 可 能 在 读 回 任何 数据 之 前 执行 两 次 针对 服务 只 的 写 操作 ， 而 
RST 生 由 其 中 第 一 次 写 操作 引发 的 。 


适用 于 此 的 规则 是 ， 当 一 个 进程 同 某 个 已 收 到 RST 的 套 接 字 执行 
写 操作 时 ， 内 核 向 该 进程 发 送 一 个 SIGPIPE 信 号。 该 信号 的 默认 行为 
征 终止 进程 ， 因 此 进程 必须 捕获 它 以 免 不 情 愿 地 被 终止 。 


不 论 该 进程 是 捕获 了 该 信号 并 从 其 信号 处 理 函 数 返 回 ， 还 是 简单 
地 名 略 该 信号 ， 写 操作 都 将 返回 EPIPE 错 误 。 


一 个 在 Usenet 上 经 常 问 及 的 问题 (frequently asked question, 
FAQ) 是 如 何在 第 一 次 写 操作 时 而 不 是 在 第 二 次 写 操 作 时 捕获 该 信 
号 。 这 是 不 可 能 的 。 遵 照 上 述 讨 论 ， 第 一 次 写 操作 引发 RST， 第 二 次 
写 引 发 SIGPIPE 信 号 。 写 一 个 已 接收 了 FIN 的 套 接 字 不 成 问题 ， 但 是 
£j—^ Eli T RSTHI = TIT 
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为 了 看 清 有 了 SIGPIPE 信 和 号 会 发 生 什么 ， 我 们 把 客户 程序 修改 成 
如 图 5-14 所 示 。 


tcpcliservste clit l.c 


1 £irncluce "img h” 


2 void 

i etry c-i(FILE *ip, int ecccktd) 

4 1 

s CAE serdl:i:e[MAX.INE], re-vli:» (MAYLINE] ; 


€ while (Fgets(sendiins, MAXLIHE, fp) .- NULL; f 
7 Wraten(ssceatd, sendline, 1]; 

é sleep(1!; 

E] Writen(socxfd, sendlines1, strlen(serdline)-1); 

10 i= (Keadline(ecekfd, recvline, MAXLINE) == 0) 

11 ezr quit("str cli: server terminated premazurely") ; 


12 Fouts (cecvline, stdout! ; 


topeliserwstr clit lc 


图 5-14 iff 

7~9 我 们 所 做 的 修改 就 是 调用 writen 两 次 第 一 次 把 文本 行 数 
据 的 第 一 个 字 节 写 入 套 接 字 ， 和 暂停 一 秒 钟 后 ， 第 二 次 把 同一 文本 行 中 
剩余 字 节 写 入 套 接 字 。 目 的 是 让 第 一 次 writen 引 发 一 个 RST， 再 让 第 
二 个 writen 产 生 SIGPIPE ° 


在 我 们 的 Linux 主 机 上 运行 客户 ， 我 们 得 到 如 下 结果 : 


writen 两 次 的 Str_c1i 函 数 


ay 


linux % tcpcli11 127.0.0.1 


我 们 键入 这 行文 本 
它 被 服务 器 回 射 回来 

在 这 儿 杀 死 服务 器 子 进程 
然后 键入 这 行文 本 


Broken pipe 本 行 由 she11 显 示 


我 们 启动 客户 ， 键 入 一 行文 本 ， 看 到 它 被 正确 回 射 后 ， 在 服务 器 
主机 上 终止 服务 器 子 进程 。 我 们 接着 键入 另 一 行文 本 (“bye”) ， 结 果 
是 没有 任何 回 射 ， 而 shell 告 诉 我 们 客户 进程 因为 SIGPIPE 信 号 而 死亡 
了 。 当 前 台 进 程 未 曾 执行 内 存 内 容 倾 渔 (core dumping) 就 死亡 时 ， 有 
些 shell 不 显示 任何 信息 ， 不 过 我 们 用 于 本 例子 的 shell 即 bash 却 告知 我 
们 欲 知 的 信息 。 


处 理 STGPIPE 的 建议 方法 取决 于 它 发 生 时 应 用 进程 想 做 什么 。 如 
果 没 有 特殊 的 事情 要 做 ， 那 么 将 信号 处 理 办 法 直接 设置 为 SIG_IGN， 
并 假设 后 续 的 输出 操作 将 捕捉 EPIPE 错 误 并 终止 。 如 果 信 号 出 现时 需 
采取 特殊 措施 (可 能 需 在 日 志文 件 中 登记 ) ， 那 么 就 必须 捕获 该 信 
号 ， 以 便 在 信号 处 理 函 数 中 执行 所 有 期 望 的 动作 。 但 是 必须 意识 到 ， 
如 宁 使 用 了 多 个 套 接 字 ， 该 信号 的 递交 无 法 告诉 我 们 是 哪个 套 接 字 出 
的 错 。 如 果 我 们 确实 需要 知道 古 哪个 write 出 了 错 ， 那 么 必须 要 么 不 
理会 该 信号 ,要么 从 信号 处 理 函 数 返 回 后 再 处 理 来 自 write 的 
EPIPE ° 
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5.14 ARs esas 


我 们 接着 查看 当 服务 器 主机 裔 溃 时 会 发 生 什 么 *。 为 了 模拟 这 种 情 
形 ， 我 们 必须 在 不 同 的 主机 上 和 运行 客户 和 服务 右 。 我 们 移 局 动 服 务 
郁 ， 再 局 动 客户 ， 接 痢 在 客户 上 键入 一 行文 本 以 确认 连接 工作 正 稼 ， 
然后 从 网 络 上 断 开 服务 事主 机 ， 并 在 客户 上 键入 另 一 行文 本 。 这 样 同 
时 也 模拟 了 当 客 户 发 送 数据 时 服务 器 主机 不 可 达 的 情形 〈 即 建立 连接 
后 某 些 中 间 路 由 器 不 工作 ) 。 


步骤 如 下 所 述 。 


(1) 当 服 务 器 主机 裔 泪 时 ， 已 有 的 网 络 连 接 上 不 发 出 任何 东西 。 这 
里 我 们 假设 的 是 主机 裔 浇 ， 而 不 是 由 操作 员 执 行 命令 关机 (我 们 将 在 
5.16 节 讨论 后 者 ) 。 


(2) 我 们 在 客户 上 键入 一 行文 本 ， 它 由 writen (图 5-5) 写 入 内 
核 ， 再 由 客户 TCP 作 为 一 个 数据 分 节 送 出 。 客 户 随后 阻塞 于 
readline 调 用 ， 等 待 回 射 的 应 管 。 


(3) 如 果 我 们 用 tcpdump 观 察 网 络 就 会 发 现 ， 客 户 TCP 持 续 重 传 数 
据 分 节 ， 试 图 从 服务 器 上 接收 一 个 ACK。TCPvV2 的 25.11 节 给 出 了 TCP 
重 传 一 个 典型 模式 : 源 自 Berkeley 的 实现 重 传 该 数据 分 节 12 次 ， 共 等 
待 约 9 分 钟 才 放 弃 重 传 。 当 客户 TCP 最 后 终于 放弃 时 (假设 在 这 段 时 间 
内 ， 服 务 絮 主机 没有 重新 启动 ， 或 者 如 果 是 服务 器 主机 未 月 尝 但 是 从 
网 络 上 不 可 达 ， 那 么 假设 主机 仍然 不 可 达 ) ， 给 客户 进程 返回 一 个 错 
误 。 既 然 客户 阻塞 在 readline 调 用 上 ， 该 调用 将 返回 一 个 错误 。 假 
设 服务 器 主机 已 朋 溃 ， 从 而 对 客户 的 数据 分 节 根 本 没有 响应 ， 那 么 所 
返回 的 错误 是 ETIMEDOUT。 然 而 如 果 某 个 中 间 路 由 器 判定 服务 器 主机 
已 不 可 达 ， 从 而 响应 以 一 个 “destination unreachable” (E BI AT IA) 
ICMP 消 息 ， 那 么 所 返回 的 错误 是 EHOSTUNREACH 或 ENETUNREACH ° 


尽管 我 们 的 客户 最 终 还 是 会 发 现 对 端 主机 已 月 让 或 不 可 达 ， 不 过 


有 时 候 我 们 需要 比 不 得 不 等 竺 9 分 钟 更 快 地 检测 出 这 种 情况 。 所 用 方法 
就 是 对 readline 调 用 设置 一 个 超时 ， 我 们 将 在 14.2 节 讨论 这 一 点 。 


我 们 刚刚 讨论 的 情形 只 有 在 我 们 向 服务 器 主机 发 送 数 据 时 才能 检 
测 出 它 已 经 裔 泪 。 如 果 我 们 不 主动 向 它 发 送 数据 也 想 检 测 出 服务 器 主 
机 的 崩 尝 ， 那 么 需要 采用 另外 一 个 技术 ， 也 就 是 我 们 将 在 7.5 节 讨论 的 
SO_KEEPALIVE 套 接 字 选 项 。 


5.15 ”服务 器 主机 裔 省 后 重 局 


在 这 种 情形 中 ， 我 们 先 在 客户 与 服务 右 之 间 建 并 连接 ， 然 后 假设 
服务 器 主 机 衣 江 并重 局 。 前 一 广 中 ， 当 我 们 发 送 数 据 时 ， 服 务 右 主机 
仍然 处 于 月 演 状 态 ， 本 市 中 ， 我 们 将 在 发 送 数 据 前 重新 局 动 已 经 朋 演 
的 服务 器 主 机 。 柑 拟 这 种 情形 的 最 简单 方法 就 是 ， 先 建立 连接 ， 再 从 
网 络 上 断 开 服 务 占 主机 ， 将 它 关 机 后 再 重 新 启动 ， 最 后 把 它 重 新 连接 
到 网 络 中 。 我 们 不 想 客户 知道 服务 器 主机 的 关机 (我 们 将 在 5.16 节 讨 


论 这 一 点 ) 。 
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正如 前 一 节 所 述 ， 如 果 在 服务 器 主机 前 溃 时 客户 不 主动 给 服务 器 
发 送 数 据 ， 那 么 客户 将 不 会 知道 服务 器 主机 已 经 月 满 。 (这 里 假设 我 
们 没有 使 用 SO_KEEPALIVE 套 接 字 选项 ) 。 所 发 生 的 步骤 如 下 所 述 。 

(1) 我 们 启动 服务 器 和 客户 ， 并 在 客户 键入 一 行文 本 以 确认 连接 已 


BN 
) 


经 建立 。 

(2) 服务 器 主机 毅 答 并 重启 。 

(3) 在 客户 上 键入 一 行文 本 ， 它 将 作为 一 个 TCP 数 据 分 节 发 送 到 服 
务 器 主机 o 


(4) 当 服 务 絮 主机 月 演 后 重 局 时 ， 它 的 TCP 丢 失 了 朋 江 前 的 所 有 连 
Bele S ， 因 此 服务 器 TCP 对 于 所 收 到 的 来 目 客户 的 数据 分 廊 啊 应 以 一 
DRST ° 


(5) 当 客 户 TCP 收 到 该 RST 时 ， 客 户 正 阻塞 于 readline 调 用 ， 导 
致 该 调用 返回 ECONNRESET 错 误 。 


如 有 果 对 客户 而 言 检 测 服务 器 主机 月 溃 与 否 很 重要 ， 即 使 客户 不 主 


动 发 送 数 据 也 要 能 检测 出 来 ， 就 需要 采用 其 他 某 种 技术 (诸如 
SO_KEEPALIVE 套 接 字 选项 或 某 些 客户 /服务 器 心 搏 函 数 ) o 


5.16 ”服务 器 主机 关机 


前 面 两 节 讨 论 了 服务 硕 主 机 摇 涡 或 无 法 通过 网 络 到 达 的 情形 。 本 
i eee ea . ARB ae EW BERT PARURE 
A A n 


Unix 系 统 关 机 时 ，init 进 程 通 常 先 给 所 有 进程 发 送 SIGTERM 信 
号 (该 信号 可 被 捕获 ) ， 等 待 一 段 固定 的 时 间 《往往 在 5~20 秒 ) ， 然 
后 给 所 有 仍 在 运行 的 进程 发 送 SIGKILL 信 号 (该 信号 不 能 被 捕获 ) 。 
这 么 做 留 给 所 有 运行 的 进程 一 小 段 时 间 来 清除 和 终止 。 如 果 我 们 不 捕 
获 SIGTERM 信 号 并 终止 ， 我 们 的 服务 器 将 由 SIGKILL 信 号 终止 。®9 当 
服务 器 子 进程 终止 时 ， 它 的 所 有 打开 着 的 描述 符 都 被 关闭 ， 随 后 发 生 
的 步骤 与 5.12 节 中 讨论 过 的 一 样 。 正 如 那 一 节 所 述 ， 我 们 必须 在 客户 
oo 使 得 服务 器 进程 的 终止 一 经 发 生 ， 客 户 
就 能 检测 到 e 
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5.17 ”TCP 程序 例子 小 结 


在 TCP 客 户 和 服务 器 可 以 彼此 通信 之 前 ， 每 一 端 都 得 指定 连接 的 
套 接 字 对 : 本 地 IP 地 址 、 本 地 端口 、 外 地 IP 地 址 、 外 地 端口 。 在 图 5- 
15 中 我 们 以 粗 体 圆 点 标 出 了 这 四 个 值 。 该 图 处 于 客户 的 角度 。 外 地 IP 
地 址 和 外 地 端口 必须 在 客户 调用 connect 时 指定 ， 而 两 个 本 地 值 通常 
束 由 内 核 作 为 connect 的 一 部 分 来 选 是 。 客 户 也 可 在 调用 connect 之 
E: 通过 调用 bind 来 指定 其 中 一 个 或 全 部 两 个 本 地 值 ， 不 过 这 种 做 法 
并 不 常见 。 


socket () 
connect i) 


FATCP EHR 
ap y n 


TCP 
IP aded 
| 由 TP 选 择 的 客户 ITP 地 址 


c 
/ R 
/ 


x Cd 于 路 由 J 
\ 


/ ^ 
| x ea I | 数据 链 路 


zh ac vh) 


众所周知 端口 号 


指定 服务 器 的 TP 地 二 


图 5-15 “从 客户 的 角度 总 结 TCP 客 户 /服务 器 


正如 4.10 节 所 述 ， 客 户 可 以 在 连接 建立 后 通过 调用 getsockname 
获取 由 内 核 指 定 的 两 个 本 地 值 。 


图 5-16 标 出 了 同样 的 四 个 值 ， 不 过 处 于 服务 硕 的 角度 。 


listen(! sccket (! 
accept (| bind () 


客户 NE^ ws 


推定 服务 器 
的 父 所 周知 闹 口 号 


返回 客户 的 端口 号 | 


IP 
指定 本 二 IP 地 址 


TCP | 
IP : - 
挨 回 客户 的 ]P 地 址 
jf \ \ C— Wt ^m bh) 
y 
/ ^ 
A \ 


/ 
/ \ 
/ X 
Bu etr E unii 数据 链 路 | 数据 链 路 


图 5-16 ”从 服务 器 的 角度 总 结 TCP 客 户 /服务 器 


本 地 端口 (服务 器 的 众所周知 端口 ) 由 bind 指 定 。bind 调 用 中 
服务 器 指定 的 本 地 IP 地 址 通常 是 通 配 IP 地 址 。 如 果 服 务 器 在 一 个 多 宿 
主机 上 绑 定 通 配 IP 地 址 ， 那 么 它 可 以 在 连接 建立 后 通过 调用 
getsockname 来 确定 本 地 IP 地 址 (4.1077) 。 两 个 外 地 值 则 由 
accept 调 用 返回 给 服务 器 。 正 如 4.10 节 所 述 ， 如 果 另 外 一 个 程序 由 调 
用 accept 的 服务 器 通过 调用 exec 来 执行 ， 那 么 这 个 新 程序 可 以 在 必 
要 时 调用 getpeername 来 确定 客户 的 IP 地 址 和 端口 号 。 


5.18 ”数据 格式 


在 我 们 的 例子 中 ， 服 务 釉 从 不 检查 来 目 客户 的 请 求 。 它 只 管 读 入 
直到 换行 符 (包括 换行 符 ) 的 所 有 数据 ， 把 它 发 回 给 客户 ， 所 搜索 的 
仅仅 是 换行 符 。 这 只 是 一 个 例外 ， 而 不 是 通常 规则 ， 一 般 来 说 ， 我 们 
必须 关心 在 客户 和 服务 器 之 间 进 行 交 换 的 数据 的 格式 。 


5.18.1 例子 : 在 客户 与 服务 器 之 间 传 递 文本 串 


修改 我 们 的 服务 器 程序 ， 它 仍然 从 客户 读 入 一 行文 本 ， 不 过 新 的 
服务 器 期 望 该 文本 行 包 含 由 空格 分 开 的 两 个 上 整数， 服务 器 将 返回 这 两 
个 整数 的 和 。 我 们 的 客户 和 服务 器 程序 的 main 函 数 仍 保持 不 变 ， 
str_cli 函 数 也 保持 不 变 ， 所 有 修改 都 在 str_echo 函 数 ， 如 图 5-17 
所 示 。 
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tepcliserwsir_eckotS.c 


1 £irclYuce "unp.h" 

2 void 

3 gtr echo(int cockfd) 

4 | 

s leng aryl 

€ goize t n 

7 caar line IMAXLZNEI ; 

F fcr-X sms } { 

y i= ( (ñ = xeadline(sockfd, Line, MAXLINE); == 0) 

10 return; /* cormecticn closed by stner ond */ 
11 i= (sscanf(line, '$1d$l.32", &argl, &araz] == 2) 

12 snprintf (line, sizeof(line), "8123W4n*, arg] + arg2); 
13 else 

14 snprintf(line, sizeof(line), "input srrorMn"!; 

15 n = str-an(line): 

16 Writen(soc«fd, line, ni; 

17 

18 > 


repeliserv/sir eoho08.c 
图 5-17 ”对 两 个 数 求 和 的 str_echo 函 数 


11-14 我 们 调用 sscanf 把 文本 串 中 的 两 个 参数 转换 为 长 整 
数 ， 然 后 调用 snprintf 把 结果 转换 为 文本 串 。 


NOE PURIS S mi ELD eal, oU SAP RS a EE 
序 对 都 工作 得 很 好 。 


PIF: 在 客户 与 服务 器 之 间 传 递 二 进 制 结 


现在 把 我 们 的 客户 和 服务 器 程序 修改 为 穿越 套 接 字 传 递 二 进 制 值 
(而 不 是 文本 串 ) 。 我 们 将 看 到 ， 当 这 样 的 客户 和 服务 器 程序 运行 在 
字 节 序 不 一 样 的 或 者 所 支持 长 整数 的 大 小 不 一 致 的 两 个 主机 上 时 ， 工 
作 将 失常 (图 1-17) ° 


我 们 的 客户 和 服务 器 程序 的 main 画 数 无 需 改动 。 在 头 文件 sum.h 
中 ， 我 们 给 两 个 参数 定义 了 一 个 结构 ， 给 结果 定义 了 男 一 个 结构 ， 如 
图 5-18 所 示 。 图 5-19 给 出 了 str_cli 函 数 。 


图 5-18 3k x ffFsum.h 


tepeliserwstr_cli02.c 


1 5Bircluóie “up. bi" 

2 tirclude "sun." 

3 void 

4 stxr_clilFILE *Zp. int sccsfd) 
si 

E csar serdline[MAXLINE] ; 


~} 


BIZY'uct args arcs; 


Ê &-ruac- result result; 

EI woile (Fyets(sendline, MAXLINE, fp) !- NULL) : 

10 it lescant(sendline, "%ldtld", Garce.argl, &arge.sr32) I= 2) | 
11 princf(*'invalid input: te", sendline): 

12 continue; 

13 } 

14 Writen(socxfd, &args, sizeofíargs)): 

15 i= ({kKeadnisockfd, Gresult, sizeof(rerzult),; == v) 

16 crr quit("str cli: server terminated premazurely") : 
17 przintf(*$1dXn", result .sun) ; 

13 } 

19 : 


topcliserv/ste cli0®.c 


图 5-19 ”发 送 两 个 二 进 种 


= 


整数 


ANS 


&HRóss8Hgstr cliERZk 


10-14 sscanf 把 两 个 参数 从 文本 串 转 换 为 二 进 制 数 ， 我 们 接 
着 调用 writen 将 该 参数 结构 发 送 给 服务 器 。 


15-17 我 们 调用 readn 来 读 回 应 答 ， 并 用 printf 来 输出 结 


FR 


图 5-20 给 出 了 str_echo 函 数 。 


tepilisecv'sir. ezhoUS.c 


1 #include tunp. i” 

2 Hinclude 'sum, n” 

3 void 

4 str_echolint sockfd) 

S 

5 ssize t n: 

7 struct args args; 

a struct result result; 

E for 2 Pt 

10 if | [n - Readn(sockfd, &args, sizeoflargs!)) — 0) 
11 return; /* connection closed by other crd */ 
12 result.sum = acgs.argl * args.a>g2; 

13 Wwribten(surkfd, &resull, sizeol(79x 111); 

14 ) 

15 ] 


"'epeliserwsir 2cho0€.c 


图 5-20 oW tB ZCKATIBJstr. echoERZK 
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9-14 我 们 通过 调用 readn 来 读 入 参数 ， 计 算 并 存储 两 数 之 和 ， 
然后 调用 writen 把 结果 结构 发 回 。 


如 有 果 我 们 在 具有 相同 体系 结构 的 两 个 主机 ( 壁 如 说 两 个 SPARC 主 
机 ) 上 运行 我 们 的 客户 和 服务 器 程序 ， 那 么 什么 问题 都 没有 。 下 面 是 
客户 的 交互 过 程 : 


solaris % tcpcli09 12.106.32.254 


我 们 键入 这 两 个 数 
这 个 数 是 服务 器 的 应 答 


但 是 如 条 在 具有 不 同体 系 结构 的 两 个 主机 上 运行 同样 的 客户 和 服 
务 器 程序 ( 壁 如 说 服务 器 程序 运行 在 大 端 字 节 序 的 SPARC 系 统 
freebsd 上 ， 客 户 运 行 在 小 端子 节 序 的 Intel 系 统 linux 上 ) ， 那 就 无 
法 工作 了 。 


linux % tcpcli09 206.168.112.96 
12 我 们 键入 这 两 个 数 
3 SERIE 


-22 -77 我 们 再 键入 另外 两 个 数 
-16777314 结果 错误 


问题 在 于 由 客户 以 小 端 字 世 序 格式 穿越 套 接 字 送 出 的 两 个 二 进 制 
整数 ， 却 被 服务 句 解 释 成 了 大 端子 广 序 整数 。 我 们 看 到 这 对 客户 和 服 
务 器 对 于 正 整 数 看 起 来 工作 正常 ， 但 是 对 于 负 整 数 则 工作 失常 了 〈 见 
习题 5.8) 。 本 例子 实际 上 存在 三 个 潜在 的 问题 。 


(1) 不 同 的 实现 以 不 同 的 格式 存储 二 进 制 数 。 最 常见 的 格式 便 是 
3.4 节 讨论 过 的 大 端 字 节 序 与 小 端 字 节 序 。 


(2) 不 同 的 实现 在 存储 相同 的 C 数 据 类 型 上 可 能 存在 差异 。 举 例 来 
说 ， 大 多 数 32 位 Unix 系 统 使 用 32 位 表示 长 整数 ， 而 64 位 系统 却 典 型 地 
使 用 64 位 来 表示 同样 的 数据 类 型 (图 1-17) 。 对 于 short、int 或 
long 等 整数 类 型 ， 它 们 各 自 的 大 小 没有 确定 的 保证 。 


(3) 不 同 的 实现 给 结构 打包 的 方式 存在 差异 ， 取 决 于 各 种 数据 类 型 
所 用 的 位 数 以 及 机 器 的 对 齐 限制 。 因 此 ， 穿 越 套 接 字 传 送 二 进 制 结构 
绝 不 是 明智 的 。 


解决 这 种 数据 格式 问题 有 两 个 常用 方法 。 


(1) 把 所 有 的 数值 数据 作为 文本 串 来 传递 。 这 束 是 岁 5-17 的 做 法 。 
当然 这 里 假设 客户 和 服务 需 主 机 具有 相同 的 字符 集 。 


(2) 显 式 定义 所 支持 数据 类 型 的 二 进 制 格 式 〈 位 数 、 大 端 或 小 端 字 
节 序 ) ， 并 以 这 样 的 格式 在 客户 与 服务 器 之 间 传 递 所 有 数据 。 远 程 过 
程 调 用 (Remote Procedure Call, RPC) 软件 包 通 常 使 用 这 种 技术 。 
RFC 1832 [Srinivasan 1995] 阐述 了 Sun RPC 软 件 包 所 用 的 外 部 数据 表 
示 (External Data Representation, XDR) 标准 。 
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5.19 ”小 结 


我 们 的 回 射 客户 /服务 器 程序 的 第 一 个 版 本 总 共 约 150 行 (包括 函 
Mreadline#lwriten) ， 不 过 提供 了 许多 值得 查看 的 细 市 问题 。 我 
们 遇 到 的 第 一 个 问题 是 僵 死 子 进 程 ， 通 过 捕获 SIGCHLD 信 和 号 加 以 处 
理 。 我 们 演示 过 该 信号 的 处 理 函 数 随后 必须 调用 的 是 waitpIid 函 数 而 
不 是 较 早 的 wait 函 数 ， 因 为 Unix 信 号 是 不 排队 的 。 这 一 点 促成 我 们 了 
E BS ANSE HEAT (关于 信号 处 理 的 额外 信息 参见 APUE 第 
10 章 


我 们 过 到 的 下 一 问题 是 当 服 务 器 进程 终止 时 ， 客 户 进 程 没 被 告 
知 。 我 们 看 到 客户 的 TCP 确 实 被 告知 了 ， 但 是 客户 进程 由 于 正 阻塞 于 
等 行 用 户 输入 而 未 接收 到 该 通知 。 我 们 将 在 第 6 章 中 使 用 select 或 
pol11 函 数 来 处 理 这 种 情形 ， 它 们 等 竺 多 个 描述 符 中 的 任何 一 个 束 绪 而 
不 是 阻塞 于 单个 描述 符 。 


我 们 还 发 现 ， 服 务 器 主机 裔 痊 的 情形 要 等 到 客户 向 服务 器 发 送 了 
数据 才能 检测 到 。 有 些 应 用 进程 要 求 能 够 尽早 了 解 这 个 事实 ， 我 们 将 
在 7.5 节 利用 SO_KEEPALIVE 套 接 字 选项 来 解决 该 问题 。 


我 们 的 简单 例子 交换 的 是 文本 行 ， 既 然 服务 器 根本 不 检查 所 回身 
的 文本 行 ， 那 么 没什么 问题 。 然 而 在 客户 与 服务 器 之 间 发 送 数值 数据 
时 将 引发 一 组 新 间 题 ， 文 中 已 经 讲述 。 


习题 


5.1 基于 图 5-2 和 图 5-3 构 造 一 个 TCP 服 务 器 程序 ， 基 于 图 5-4 和 图 
5-5 构 造 一 个 TCP 客 户 程序 。 先 启动 服务 器 ， 再 启动 客户 。 刍 入 若干 文 
本 行 以 确认 客户 和 服务 器 工作 正常 。 通 过 键入 EOF 字 符 终 止 客户 ， 并 
记 下 时 间 。 在 客户 主机 上 使 用 netstat 命 令 验 证 本 连接 的 客户 端 在 经 
历 TIME_WAIT 状 态 。 此 后 每 5 秒 钟 左右 执行 一 次 netstat， 查 看 
TIME_WAIT 状 态 何 时 结束 。 该 客户 主机 的 网 络 实现 设置 的 MSL (最 长 
分 节 生 命 期 ， 有 多 大 ? 


5.2 ”对 于 我 们 的 客户 /服务 器 程序 ， 如 果 我 们 在 运行 客 尸 时 把 它 的 
标准 输入 重 定 回 到 一 个 二 进 制 文件 ， 将 会 发 生 什 么 ? 


5.3 ”我 们 的 回 射 客户 /服务 右 之 间 的 通信 与 利用 Telnet 客 户 跟 我 们 
的 回 冉 服务 絮 通 信 相 比较 ， 存 在 什么 差别 ? 


54 ”在 5.12 广 的 例子 中 ， 我 们 使 用 netstat 命 令 通过 查看 套 接 字 
状态 验证 了 连接 终止 序列 的 前 两 个 分 节 (来 和 目 服 务 器 的 FIN 和 来 日 客 
户 的 对 该 分 节 的 ACK) 已 经 发 送 。 该 序列 的 后 两 个 分 节 (来 自 客户 的 
FIN 和 来 自 服务 器 的 对 该 分 节 的 ACK) 会 交换 吗 ? 如 果 交 换 的 话 ， 何 
时 交换 ? 如 采 不 交换 的 话 ， 为 什么 ? 


5.5 在 5.14 玫 给 出 的 例子 中 ， 如 采 我 们 在 步 又 2 与 步骤 3 之 间 重 新 
JE SR AS ae EVE MRA a LAE, He RETA? 
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5.6 ”为 了 验证 我 们 在 5.13 节 中 声明 的 关于 产生 SIGPIPE 信 和 号 的 推 
断 ， 我 们 对 图 5-4 作 如 下 修改 。 编 写 一 个 SIGPIPE 信 号 处 理 函 数 ， 它 只 
是 显示 一 条 消息 便 返 回 。 在 调用 connect 之 前 建立 该 信号 处 理 函 数 。 
把 服务 器 的 端口 号 改 为 13， 即 daytime 服 务 器 。 连 接 建立 后 ， 调 用 
sleep 睡 眠 2 秒 钟 ， 然 后 调用 write 往 套 接 字 中 写 入 若干 字 节 ， 再 
Sleep 2 秒 钟 ， 往 套 接 字 中 再 write 若 干 字 节 。 运 行 该 程序 ， 观 察 它 
将 会 发 生 什么 ? 


5.7 FEA5-154, WRAP Econnect Hi PIREA sis 3- 
机 的 IP 地 址 是 与 其 右 侧 的 数据 链 路 关联 的 IP 地 址 ， 而 不 古 与 其 左 侧 的 
数据 链 路 关联 的 IP 地 址 ， 将 会 发 生 什么 ? 


58 在 出 自 图 5-20 的 例子 输出 中 ， 当 客户 和 服务 器 位 于 不 同 字 节 
序 的 系统 上 时 ， 对 于 小 的 正 整数 该 例子 工作 正常 ， 但 是 对 于 小 的 负 束 
数 册 工作 失常， 为 什么 ” dim USE mR eH 
交换 图 。 


5.9 ”在 图 5-19 和 图 5-20 的 例子 中 ， 我 们 可 以 通过 让 客户 先 调用 
htonl 函 数 把 它 的 两 个 参数 转换 成 网 络 字 节 序 ， 再 让 服务 器 在 做 加 法 
之 前 对 每 个 参数 调用 ntoh1 函 数 ， 然 后 对 结果 做 类 似 的 转换 来 解决 字 
P FF RESI? 


5.10 如果 客户 在 某 个 以 32 位 存储 长 整数 的 SPARC 主 机 上 ， 而 服 
务 器 在 以 64 位 存储 长 整数 的 Digital Alpha 主 机 上 ， 图 5-19 和 图 5-20 中 的 
oo 如 果 客 户 和 服务 器 在 这 两 个 主机 间 互 换 ， 结 果 会 
改变 吗 ? 


5.11 在 图 5-15 中 ， 我 们 说 客户 IP 地 址 是 由 IP 基 于 路 由 选 定 的 ， 这 
XT AS X? 
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@ 这 一 版 的 新 作者 在 图 3-17 和 图 3-18 中 修正 了 第 2 版 中 对 应 的 图 3-16 和 
图 3-17 中 的 一 个 错误 ， 也 就 是 在 读 入 一 些 数据 后 再 磁 到 EOF 的 情况 
下 ，Stevens 先 生 把 读 入 字符 数 少 减 了 1， 不 过 他 们 却 在 图 5-3 中 过 早 地 
使 用 了 不 以 文本 行为 中 心 的 代码 ， 而 本 书 以 文本 行为 中 心 的 回 射 服务 
讨论 将 持续 到 6.7 节 为 止 。 在 本 书 以 文本 行为 中 心 的 回 射 服务 讨论 中 ， 
隐 含 假设 服务 器 也 是 面向 文本 行 从 套 接 字 读 取 数据 ， 以 便 进 一 步 处 理 
( 见 5.18 节 ) ， 尽 管 纯粹 的 回 射 服务 没有 这 个 需要 。 从 这 个 意义 上 
看 ， 第 2 版 中 对 应 的 图 5-3 更 为 确切 ， 而 且 尽 管 新 作者 修改 了 

str echoÉNZ, TEBSJEBJXE PEM ADM RCH Fi Stevens 44 BJ 
解释 ， 可 能 会 让 读者 觉得 不 知 所 云 。 为 此 译 者 建议 读者 仍然 采用 第 ?版 
中 对 应 的 图 5-3， 图 5-1 也 调整 为 第 2 版 中 对 应 的 图 5-1 ( 即 TCP 服 务 器 使 
用 read1line 而 不 是 read 读 入 文本 行 ) 。 话 说 回来 ， 从 纯粹 的 回 射 服 
务 角度 看 ， 图 5-3 是 正确 的 (符合 RFC 862) ， 而 第 2 版 中 对 应 的 图 5-3 


只 能 面向 文本 行 ， 而 不 能 面向 二 进 制 数据 。 需 指出 的 是 ， 面 向 文本 行 
的 套 接 字 读 操作 中 ， 一 次 read 调 用 不 能 保证 读 入 完整 的 一 行 或 数 行 ; 
而 读 入 完整 的 一 行 可 能 需要 多 次 read 调 用 ， 并 检查 其 中 是 否 出 现 换行 
符 (这 就 是 图 3-17 和 图 3-18 中 的 readline 函 数 的 功能 ) 。 如 果 在 回 射 
服务 絮 调 用 的 str_echo 函 数 中 舍 充 现成 的 readline 函 数 不 用 而 直 
接 使 用 read 系 统 调 用 ， 那 么 有 可 能 在 尚未 完全 读 入 一 行文 本 之 前 ， 束 
开始 回 射 其 中 的 内 容 了 。 客 户 不 会 显示 这 样 的 不 完整 文本 行 ， 因 为 客 
户 的 套 接 字 读 操作 使 用 的 是 readline 而 不 是 read。 事 实 上 服务 器 也 
不 大 可 能 读 入 不 完整 的 文本 行 ， 因 为 客户 把 一 个 完整 的 文本 行 一 次 性 
地 写 入 套 接 字 ， 而 较 短 的 文本 行 通常 就 被 封装 在 单个 TCP 分 和 中 递送 
到 对 端 ， 如 果 MAXLINE 常 值 足 够 大 ， 那 么 通常 情况 下 一 次 读 操作 恰好 
读 入 完整 的 一 行 ， 相 反 ， 超 过 MSS 的 文本 行将 被 封装 到 多 个 TCP 分 节 
中 递送 ， 服 务 器 可 能 就 需要 多 次 read 调 用 才能 读 入 完整 的 一 行 。 如 果 
客户 把 一 个 完整 的 文本 行 分 多 次 写 入 套 接 字 ( 壁 如 像 Telnet 客 户 那 样 把 
每 个 字符 封装 在 单个 分 节 中 递送 到 对 端 ， 那 么 服务 器 将 持续 读 入 不 
完整 的 文本 行 ，7.9 节 讲解 TCP 的 Nagle 算 法 时 就 有 这 样 的 例子 。 另 外 ， 
对 于 新 作者 在 图 3-17 和 图 3-18 中 修正 的 那个 错误 ， 译 者 认为 更 受 帖 的 
做 法 是 给 这 种 不 是 以 换行 符 结 束 的 文本 行 添加 一 个 换行 特 ， 也 就 是 在 
第 2 版 的 图 3-16 和 图 3-17 中 处 理 这 种 情况 时 添加 一 个 语句 : “*ptr++ = 
'\n';”， 这 样 读 入 字符 数 束 不 用 再 减 1 了 。 这 种 做 法 有 例 可 循 ， 壁 如 
用 vi 编辑 器 编辑 并 保存 最 后 一 行 不 是 以 换行 人 特 结 尾 的 文本 文件 时 ，vi 
同样 会 给 最 后 一 行 添 加 一 个 换行 符 。 一 一 译 者 注 


@ 信 号 处 理 函 数 也 称 为 信号 处 理 程序 ， 这 是 相对 于 main 函 数 所 在 的 主 
程序 而 言 的。 一 一 详 者 注 


@ 构 造 程 序 是 指使 用 make 工 具 把 源 程序 和 /或 目标 程序 编译 链接 成 可 
执行 程序 。 本 书 随 意 可 得 的 源 代码 〈 见 前 言 ) 提供 了 构造 其 中 各 个 程 
序 的 makefile 文 件 。 译 者 注 


@ 这 里 的 阻塞 不 同 于 我 们 此 前 一 直 使 用 的 同名 词 。 这 里 的 阻塞 是 指 阻 
塞 某 个 信号 或 蘑 个 信号 集 ， 防 止 它们 在 阻塞 期 间 递交 (delivering) ° 
它 的 反 操 作 称 为 解 阻 塞 。 而 此 前 一 直 使 用 的 阻塞 是 指 阻塞 在 某 个 系统 
调用 上 ， 也 就 是 说 这 个 系统 调用 因为 目前 没有 必要 资源 可 用 而 必须 等 
得 ,直到 这 些 资 源 变 为 可 用 后 才 可 能 返回 。 等 待 期 间 进程 进入 睡眠 状 
仿 。 与 它 相 对 的 概念 是 非 阻塞 ， 也 束 古 说 非 阻 塞 的 系统 调用 即使 没有 


ER 


必要 资源 可 用 也 立即 返回 ， 不 过 会 告诉 调用 者 发 生 了 这 种 情况 ， 这 样 
调用 者 可 以 继续 调用 同一 个 系统 调用 。 译 者 注 


应 该 说 如 果 我 们 忽略 STIGTERM 人 信号， 我 们 的 服务 器 将 由 SIGKILL 信 
号 终止 。SIGTERM 信 号 的 默认 处 置 就 是 终止 进程 ， 因 此 要 是 我 们 不 捕 
RE (也 不 忽略 它 ) ， 那 么 起 作用 的 是 它 的 默认 处 置 ， 我 们 的 服务 器 
将 被 STGTERM 信 号 终止 ，SIGKILL 信 和 号 不 可 能 再 发 送 给 它 。 一 一 译 考 
注 


第 6 章 VORA: select#lpoll 
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6.1 ”概述 


在 5.12 市 中 ， 我 们 看 到 TCP 客 户 同时 处 理 两 个 输入 : 标准 输入 和 
TCP 套 接 字 。 我 们 过 到 的 问题 是 束 在 客户 阻塞 于 (标准 输入 上 的 ) 
fgets 调 用 期 间 ， 服 务 器 进程 会 被 杀 死 。 服 务 絮 TCP 虽然 正确 地 给 客 
户 TCP 发 送 了 一 个 FIN， 但 是 既然 客户 进程 正 阻塞 于 从 标准 输入 读 入 的 
过 程 ， 它 将 看 不 到 这 个 EOF， 直 到 从 套 接 字 读 时 为 止 (可 能 已 过 了 很 
长 时 间 ) 。 这 样 的 进程 需要 一 种 预先 告知 内 核 的 能 力 ， 使 得 内 核 一 旦 
发 现 进程 指定 的 一 个 或 多 个 MO 条 件 惑 绪 (也 束 是 说 输入 已 准备 好 被 读 
W, 或 者 描述 符 已 能 承接 更 多 的 输出 ) ， 它 就 通知 进程 。 这 个 能 力 称 
为 IO 复 用 (I/O multiplexing) ， 是 由 select 和 pol11 这 两 个 函数 支持 
的 。 我 们 还 介绍 前 者 较 新 的 称 为 pselect 的 POSIX 变 种 。 


有 些 系统 提供 了 更 为 先进 的 让 进程 在 一 串 事件 上 等 竺 的 机 制 。 轮 
询 设备 (poll device) 就 是 这 样 的 机 制 之 一 ， 不 过 不 同 厂家 提供 的 方式 
不 尽 相 同 。 我 们 将 在 第 14 章 中 阐述 这 种 机 制 。 
IO 复 用 典型 使 用 在 下 列 网 络 应 用 场合 。 
。 当 客户 处 理 多 个 描述 符 (通常 是 交互 式 输入 和 网 络 套 接 字 ) 时 ， 
必须 使 用 VO 复 用 。 这 是 我 们 早先 讲述 过 的 场合 。 
。 一 个 客户 同时 处 理 多 个 套 接 字 是 可 能 的 ， 不 过 比较 少见 。 我 们 将 
在 16.5 节 中 结合 一 个 Web 客 尸 的 上 下 文 给 出 这 种 场合 使 用 select 
的 例子 。 
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字 ， 一 般 就 要 使 用 MO 复 用 ， 如 6.8 节 所 述 。 


。 如 果 一 个 服务 器 即 要 处 理 TCP， 又 要 处 理 UDP， 一 般 就 要 使 用 IO 
复 用 。 我 们 将 在 8.15 节 给 出 这 种 场合 的 一 个 例子 。 

© 如果 一 个 服务 器 要 处 理 多 个 服务 或 者 多 个 协议 (例如 我 们 将 在 
13.5 节 讲述 的 inetd 守 护 进程 ) ， 一 般 就 要 使 用 IO 复 用 。 


MM E 许多 重要 的 应 用 程序 也 需要 使 用 这 
项 技术 。 


6.2 UO 模型 


在 介绍 select 和 poll 这 两 个 函数 之 前 ， 我 们 需要 回顾 整体 ， 查 
看 Unix 下 可 用 的 5 种 IO 模型 的 基本 区 别 : 


。 阳 塞 式 IO; 

e 3EBRSERAT/O; 

。1O 复 用 (select#ilpoll) ; 

。 信 号 驱动 式 /O (SIGIO) ; 

。 异步 /JO (POSIX 的 aio_ 系列 函 数 ) 。 


目次 阅读 本 书 时 ， 你 可 以 略 读本 市 ， 在 磁 到 以 后 各 革 市 中 详细 介 
绍 的 各 种 MO 模型 时 再 回头 细 读 。 


正如 我 们 将 在 本 市 给 出 的 所 有 例子 所 示 ， 一 个 输入 操作 通 汕 包括 
两 个 不 同 的 阶段 : 


(1) 等 待 数据 准备 好 ; 

(2) 从 内 核 向 进程 复制 数据 。 

对 于 一 个 套 接 字 上 的 输入 操作 ， 第 一 步 通常 涉及 等 待 数据 从 网 络 
中 到 达 。 当 所 等 待 分 组 到 达 时 ， 它 被 复制 到 内 核 中 的 某 个 缓冲 区 。 第 
二 步 就 是 把 数据 从 内 核 缓 冲 区 复制 到 应 用 进程 缓冲 区 。 
6.2.1 阻塞 式 I/O 模 型 

最 流行 的 1/O 模 型 是 阻塞 式 /O (blocking IO) 模型， 本 书 到 目前 


为 止 的 所 有 例子 都 使 用 该 模型 。 黑 认 情 形 下 ， 所 有 套 接 字 都 是 阻塞 
的 。 以 数据 报 套 接 字 作为 例子 ， 我 们 有 如 图 6-1 所 示 的 情形 。 
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图 6-1 阻塞 式 IO 模 型 


我 们 使 用 UDP 而 不 是 TCP 作 为 例子 的 原因 在 于 就 UDP 而 言 ， 数 据 
准备 好 读 取 的 概念 比较 简单 : 要 么 整个 数据 报 已 经 收 到 ， 要 么 还 没 
有 。 然 而 对 于 TCP 来 说 ， 诸 如 套 接 字 低 水 位 标记 (low-water mark) 等 
额外 变量 开始 起 作用 ， 导 致 这 个 概念 变 得 复杂 。 


在 本 闻 的 例子 中 ， 我 们 把 recvfrom 函 数 视 为 系统 调用 ， 因 为 我 
们 正在 区 分 应 用 进程 和 内 核 。 不 论 它 如 何 实现 (在 源 自 Berkeley 的 内 
核 上 十 作为 系统 调用 ， 在 System V 内 核 上 是 作为 调用 系统 调用 getmsg 
的 函数 ) ， 一 般 都 会 从 在 应 用 进程 空间 中 运行 切换 到 在 内 核 空 间 中 运 
fT, 一段 时 间 之 后 再 切换 回来 。 


在 图 6-1 中 ， 进 程 调用 recvfrom， 其 系统 调用 直到 数据 报到 达 日 
被 复制 到 应 用 进程 的 绥 冲 区 中 或 者 发 生 错 误 才 返回 。 最 常见 的 错误 是 
系统 调用 被 信号 中 断 ， 如 5.9 节 所 述 。 我 们 说 进程 在 从 调用 recvfrom 
开始 到 它 返 回 的 整 段 时 间 内 是 被 阻塞 的 。recvfrom 成 功 返 回 后 ， 应 
用 进程 开始 处 理 数据 报 。 


6.2.2” 非 阻塞 式 VO 模 型 


进程 把 一 个 僚 接 字 设 置 成 非 阻 塞 是 在 通知 内 核 :， 当 所 请 求 的 VO 操 
作 非 得 把 本 进程 投入 睡眠 才能 完成 时 ， 不 要 把 本 进程 投入 睡眠 ， 而 是 


返回 一 个 错误 。 我 们 将 在 第 16 草 中 详细 介绍 非 阻 塞 式 IO (nonblocking 
VO) ， 不 过 图 6-2 概 要 展示 了 我 们 即将 考虑 的 例子 。 
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Al6-2 非 阻 塞 式 MO 模型 


前 三 次 调用 recvfrom 时 没有 数据 可 返回 ， 因 此 内 核 转 而 立即 返 
回 一 个 EWOULDBLOCK 错 误 。 第 四 次 调用 recvfrom 时 已 有 一 个 数据 报 
准备 好 ， 它 被 复制 到 应 用 进程 缓冲 区 ， 于 是 recvfrom 成 功 返 回 。 我 
们 接着 处 理 数 据 。 


当 一 个 应 用 进程 像 这 样 对 一 个 非 阻 塞 描 述 符 循 环 调用 recvfrom 
时 ， 我 们 称 之 为 轮 询 (polling) 。 应 用 进程 持续 轮 询 内 核 ， 以 查看 某 
个 操作 是 否 就 绪 。 这 么 做 往往 耗费 大 量 CPU 时 间 ， 不 过 这 种 模型 偶尔 
也 会 遇 到 ， 通 常 是 在 专门 提供 某 一 种 功能 的 系统 中 才 有 。 
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62.3 LO 复 用 模型 


有 了 LIO 复 用 (LO multiplexing) ， 我 们 就 可 以 调用 select 或 
po11， 阻 塞 在 这 两 个 系统 调用 中 的 某 一 个 之 上 ， 而 不 是 阻塞 在 真正 的 
IO 系统 调用 上 “。 图 6-3 概 括 展示 了 IO 复 用 模型 。 
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Al6-3 ”LO 复 用 模型 


我 们 阻塞 于 select 调 用 ， 等 待 数据 报 套 接 字 变 为 可 读 。 当 
select 返 回 套 接 字 可 读 这 一 条 件 时 ， 我 们 调用 recvfrom 把 所 读数 据 
报复 制 到 应 用 进程 缓冲 区 。 


比较 图 6-3 和 图 6-1，IO 复 用 并 不 显得 有 什么 优势 ， 事 实 上 由 于 使 
用 select 需 要 两 个 而 不 是 单个 系统 调用 ，LO 复 用 还 稍 有 劣势 。 不 过 
我 们 将 在 本 章 稍 后 看 到 ， 使 用 Select 的 优势 在 于 我 们 可 以 等 待 多 个 
描述 符 就 绪 。 


与 MO 复 用 密切 相关 的 另 一 种 UVO 模 型 是 在 多 线程 中 使 用 阻 蹇 式 
IO。 这 种 模型 与 上 述 模型 极为 相似 ， 但 它 没 有 使 用 Select 阻塞 在 多 
个 文件 描述 符 上 ， 而 是 使 用 多 个 线程 〈 每 个 文件 描述 符 一 个 线程 ) ， 
这 样 每 个 线程 都 可 以 目 由 地 调用 诸如 recvfrom 之 类 的 阻 蹇 式 1O 系 统 
调用 了 。 


6.2.4 ”信和 号 驱动 式 UO 模 型 


我 们 也 可 以 用 信号 ， 让 内 核 在 描述 符 就 绪 时 发 送 SIGI0 信 和 号 通知 
我 们 。 我 们 称 这 种 模型 为 信号 驱动 式 UO (signal-driven VO) ， 图 6-4 是 
它 的 概要 展示 o 
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图 6-4 ”信和 号 驱动 式 WVO 模 型 


我 们 首先 开启 套 接 字 的 信号 驱动 式 WO 功 能 (我 们 将 在 25.2 节 讲解 
这 个 过 程 ) ， 并 通过 sigaction 系 统 调用 安装 一 个 信号 处 理 函 数 。 该 
系统 调用 将 立即 返回 ， 我 们 的 进程 继续 工作 ， 也 就 是 说 它 没有 被 阻 
塞 。 当 数据 报 准 备 好 读 取 时 ， 内 核 就 为 该 进程 产生 一 个 SIGIO 信 号 。 
我 们 随后 既 可 以 在 信号 处 理 函 数 中 调用 recvfrom 读 取 数 据 报 ， 并 通 
知 主 循环 数据 已 准备 好 符 处 理 〈 这 正 是 我 们 将 在 25.3 节 中 所 要 做 的 事 
TH) ， 也 可 以 立即 通知 主 循环 ， 让 它 读 取 数据 报 。 


无 论 如何 处 理 SIGI0O 信 和 号， 这 种 模型 的 优势 在 于 等 竺 数据 报到 达 
期 间 进 程 不 被 阻塞 。 主 循环 可 以 继续 执行 ， 只 要 等 得 来 自信 号 处 理 函 
o 既 可 以 是 数据 已 准备 好 被 处 理 ， 也 可 以 是 数据 报 已 准备 好 
被 读 取 。 


6.2.5 “异步 IO 模型 


异步 IJO (asynchronous I/O) 由 POSIX 规 范 定义 。 演 变 成 当前 
POSIX 规 范 的 各 种 早期 标准 所 定义 的 实时 函数 中 存在 的 差异 已 经 取得 
一 致 。 一 般 地 说 ， 这 些 函 数 的 工作 机 制 是 : 告知 内 核 局 动 某 个 操作 ， 
并 让 内 核 在 整个 操作 (包括 将 数据 从 内 核 复 制 到 我 们 自己 的 缓冲 区 ) 


完成 后 通知 我 们 。 这 种 模型 与 前 一 节 介绍 的 信号 驱动 模型 的 主要 区 别 
在 于 ， 信 号 驱动 式 1O 是 由 内 核 通知 我 们 何 时 可 以 启动 一 个 1O 操 作 ， 

| Ff VOBLAL A FIER Tuo FY Si 。 图 6-5 给 出 了 一 个 
BT e. 
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图 6-5 ”异步 WO 模型 


我 们 调用 aio_read 画 数 (POSIX 异 步 /O 函 数 以 aio_ 或 lio Jf 
3L) ， 给 内 核 传 递 描述 符 、 组 冲 区 指针 、 绥 冲 区 大 小 “与 read 相 同 的 
三 个 参数 ) 和 文件 偏 移 〈 与 1seek 类 似 ) ， 并 告诉 内 核 当 整个 操作 完 
成 时 如 何 通知 我 们 。 该 系统 调用 立即 返回 ， 而 且 在 等 待 O 完 成 期 间 ， 
我 们 的 进程 不 被 阻塞 。 本 例子 中 我 们 假设 要 求 内 核 在 操作 完成 时 产生 
某 个 信号 。 该 信号 直到 数据 已 复制 到 应 用 进程 缓冲 区 才 产 生 ， 这 一 点 
不 同 于 信号 驱动 式 WVO 模 型 。 


本 书 编写 至 此 的 时 候 ， 支 持 POSIX 异 步 /O 模 型 的 系统 仍 较 罕见 。 
我 们 不 能 确定 这 样 的 系统 是 否 文 持 套 接 字 上 的 这 种 模型 。 这 儿 我 们 只 
征用 它 作 为 一 个 与 信号 碟 动 式 1O 模 型 相 比照 的 例子。 


6.2.6 ”各 种 LO 模型 的 比较 


图 6-6 对 比 了 上 壕 5 种 不 同 的 VO 模型 。 可 以 看 出 ， 前 4 种 模型 的 主 
要 区 别 在 于 第 一 阶段 ， 因 为 它们 的 第 二 阶段 是 一 样 的 ， 在 数据 从 内 核 
复制 到 调用 者 的 绥 冲 区 期 间 ， 进 程 阻 塞 于 recvfrom 调 用 。 相 反 ， 异 
步 WO 模 型 在 这 两 个 阶段 都 要 人 处理， 从 而 不 同 于 其 他 4 种 模型 。 
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图 6-6 ”5 种 IO 模型 的 比较 
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62.7 ”同步 WO 和 异步 /O 对 比 
POSIX 把 这 两 个 术语 定义 如 下 : 


。 同步 WO 操作 (synchronous I/O opetation) 导致 请 求 进程 阻塞， 直 
到 IO 操作 完成 ; 
。 异步 IO 操作 (asynchronous I/O opetation) 不 导致 请 求 进程 阻塞 。 


根据 上 述 定义 ， 我 们 的 前 4 种 模型 一 阻塞 式 IO 模 型 、 非 阻塞 式 
IO 模型 、LIO 复 用 模型 和 信号 驱动 式 IO 模 型 都 是 同步 JO 模 型 ， 因 为 其 
中 真正 的 IO 操作 (recvfrom) 将 阻塞 进程 。 只 有 异步 1/O 模 型 与 
POSIX 定 义 的 异步 1O 相 匹配 。 


63 select WAX 


该 男 数 允许 进程 指示 内 核 等 待 多 个 事件 中 的 任何 一 个 发 生 ， 并 只 
在 有 一 个 或 多 个 事件 发 生 或 经 历 一 段 指定 的 时 间 后 才 唤 醒 它 。 
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作为 一 个 例子 ， 我 们 可 以 调用 select， 告 知 内 核 仅 在 下 列 情况 
发 生 时 才 返 回 : 


© 集合 {L，4，5} 中 的 任何 描述 符 准 备 好 读 ; 

。 集 合 {2，7} 中 的 任何 描述 符 准备 好 写 ; 

。 集 合 {1，4} 中 的 任何 描述 符 有 异常 条 件 待人 处 理 ; 
。 已 经 历 了 10.2 秒 。 


也 就 是 说 ， 我 们 调用 select 告 知 内 核对 哪些 描述 符 (就 读 、 写 
或 异常 条 件 ) 感 兴 趣 以 及 等 待 多 长 时 间 。 我 们 感 兴趣 的 描述 符 不 局 限 
于 套 接 字 ， 任 何 描述 符 都 可 以 使 用 select 来 测试 。 


源 自 Berkeley 的 实现 已 经 允许 任何 摘 述 符 的 VO 复 用 。SVR3 最 初 把 
IO 复 用 限制 于 对 应 流 设 备 (STREAMS device， 见 第 31 章 ) 的 描述 
符 ，SVR4 则 去 除了 这 个 限制 。 


#include <sys/select.h> 
#include <sys/time.h> 


int select(int maxfdpi, fd set *readset, fd set *writeset, fd set 
*exceptset, 
const struct timeval *timeout); 


返回 : 若 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 


为 9， 若 出 错 则 为 -1 


我 们 从 该 函数 的 最 后 一 个 参数 timeout 开 始 介绍 ， 它 告知 内 核 等 竺 
所 指定 描述 符 中 的 任何 一 个 吏 绪 可 花 多 长 时 间 。 其 timeval 结 构 用 于 
指定 这 段 时 间 的 秒 数 和 微 秒 数 。 


struct timeval { 
long tv_sec; /* seconds */ 


long tv_usec; /* microseconds */ 


这 个 参数 有 以 下 三 种 可 能 。 


(1) 永远 等 得 下 去 : 仪 在 有 一 个 描述 符 准备 好 I/O 时 才 返 回 。 为 
此 ， 我 们 把 该 参数 设置 为 空 指针 。 


(2) 等 待 一 段 固定 时 间 : 在 有 一 个 描述 符 准备 好 1/O 时 返回 ， 但 是 
不 超过 由 该 参数 所 指向 的 timeval 结 构 中 指定 的 秒 数 和 微 秒 数 。 


(3) 根本 不 等 待 : 检查 描述 符 后 立即 返回 ， 这 称 为 轮 询 
(polling) 。 为 此 ， 该 参数 必须 指 癌 一 个 timeval 结 构 ， 而 且 其 中 的 
定时 器 值 (由 该 结构 指定 的 秒 数 和 微 秒 数 ) 必须 为 0。 
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前 两 种 情形 的 等 得 通常 会 被 进程 在 等 得 期 间 捕 获 的 信号 中 断 ， 并 
从 信号 处 理 函 数 返 回 。 


源 自 Berkeley 的 内 核 绝 不 自动 重启 被 中 断 的 Select (TCPV2 第 
52701) ， 然 而 SVR4 可 以 目 动 重启 被 中 断 的 select， 条 件 是 在 安装 
信号 处 理 函 数 时 指定 了 SA_RESTART 标 志 。 这 意味 着 从 可 移植 性 考 
p. cen ug 那么 必须 做 好 select 返 回 EINTR 错 误 的 
准备 。 


尽管 timeval 结 构 允 许 我 们 指定 了 一 个 微 秒 级 的 分 辨 率 ， 然 而 内 
核 文 持 的 真实 分 辩 率 往往 粗糙 得 多 。 举 例 来 说 ， 许 多 Unix 内 核 把 超时 
EH ERARI ms 的 倍数 。 另 外 还 涉及 调度 延迟 ， 也 束 是 说 定时 需 时 
间 到 后 ， 内 核 还 需 花 一 点 时 间 调 度 相 应 进程 运行 。 


如 果 timeout 参 数 所 指向 的 timeval 结 构 中 的 tv_sec 成 员 值 超过 1 
亿 秒 ， 那 么 有 些 系统 的 select 函 数 将 以 EINVAL 错 误 失 败 返 回 。 当 然 
这 是 一 个 非常 大 的 超时 值 (超过 3 年 ) ， 不 大 可 能 有 用 ， 不 过 就 此 指 
H: timeval 结 构 能 够 表达 select 不 支持 的 值 。 


timeout 参 数 的 const 限 定 词 表 示 它 在 函数 返回 时 不 会 被 selLect 
修改 。 举 例 来 说 ， 如 果 我 们 指定 一 个 10s 的 超时 值 ， 不 过 在 定时 器 到 时 
之 前 select 就 返回 了 〈 结 果 可 能 是 有 一 个 或 多 个 描述 符 就 绪 ， 也 可 
能 是 得 到 EINTR 错 误 ) ， 那 么 timeout 人 参数 所 指向 的 timeval1 结 构 不 会 
被 更 狐 成 该 本 数 返回 时 剩余 的 秒 数 。 如 果 我 们 需要 知道 这 个 值 ， 那 么 
必须 在 调用 select 之 前 取得 系统 时 间 ， 它 返回 后 再 取得 系统 时 间 ， 
两 者 相 减 就 是 该 值 〈 任 何 健壮 的 程序 都 得 考虑 到 系统 时 间 可 能 在 这 段 
时 间 内 偶尔 会 被 管理 员 或 ntpd 之 类 守护 进程 调整 ) 。 


有 些 Linux 版 本 会 修改 这 个 tijmeval 结 构 。 因 此 从 移植 性 考虑 ， 
我 们 应 该 假设 该 timeval 结 构 在 select 返 回 时 未 被 定义 ， 因 而 每 次 
调用 select 之 前 都 得 对 它 进行 初始 化 。POSIX 规 定 对 该 结构 使 用 
const 限 定 词 。 


中 间 的 三 个 参数 readset、writeset 和 exceptset 指 定 我 们 要 让 内 核 测 
试 读 、 写 和 异常 条 件 的 描述 符 。 目 前 文 持 的 异常 条 件 只 有 两 个 : 


(1) 某 个 套 接 字 的 带 外 数据 的 到 达 ， 我 们 将 在 第 24 章 中 详细 讲述 这 


个 异常 条 件 ; 


信息 ， 本 书 不 讨论 全 终端 
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如 何 给 这 3 个 参数 中 的 每 一 个 参数 指定 一 个 或 多 个 描述 符 值 是 一 个 
设计 上 的 问题 。select 使 用 描述 符 集 ， 通 常 是 一 个 整数 数组 ， 其 中 


每 个 整数 中 的 每 一 位 对 应 一 个 描述 符 。 举 例 来 说 ,假设 使 用 32 位 整 
数 ， 那 么 该 数组 的 第 一 个 元 素 对 应 于 描述 符 0~~31， 第 二 个 元 素 对 应 于 
接 述 符 32~63， 依 此 类 推 。 所 有 这 些 实现 细 市 都 与 应 用 程序 无 天 ， 它 
们 隐藏 在 名 为 fd_set 的 数据 类 型 和 以 下 四 个 宏 中 : 


void FD ZERO(fd set *fdset); /* clear all bits in 
fdset */ 

void FD SET(int fd, fd set *fdset); /* turn on the bit for 
fd in fdset */ 

void FD CLR(int fd, fd set *fdset); /* trun off the bit for 


fd in fdset */ 


int FD ISSET(int fd, fd set *fdset); /* is the bit for fd on 
in fdset ? */ 


我 们 分 配 一 个 fd_set 数 据 类 型 的 描述 符 集 ， 并 用 这 些 安 设置 或 
测试 该 集合 中 的 每 一 位 ， 也 可 以 用 C 语 言 中 的 赋值 语句 把 它 赋值 成 刀 


外 一 个 描述 符 集 。 


我 们 所 讨论 的 每 个 描述 符 占 用 整数 数组 中 一 位 的 方法 仅仅 是 
Select 函数 的 可 能 实现 之 一 。 不 过 把 描述 符 集 中 的 每 个 描述 符 指称 
为 位 (bit) 是 常见 的 ， 例 如 “打开 读 集合 中 表示 监听 描述 符 的 位 ”。 


我 们 将 在 6.10 节 看 到 po11 函 数 使 用 一 个 完全 不 同 的 表示 方法 : 一 
个 可 变 长 度 的 结构 数组 ， 其 中 每 个 结构 代表 一 个 描述 符 。 


举 个 例子 ， 以 下 代码 用 于 定义 一 个 fd_set 类 型 的 变量 ， 然 后 打 
开 描 述 符 1、4 和 5 的 对 应 位 : 
fd set rset; 


FD ZERO(&rset); /* initialize the set: all bits off */ 
FD SET(1, &rset); /* turn on bit for fd 1 */ 


FD SET(4, &rset); /* turn on bit for fd 4 */ 
FD SET(5, &rset); /* turn on bit for fd 5 */ 


描述 符 集 的 初始 化 非常 重要 ， 因 为 作为 目 动 变 量 分 配 的 一 个 摘 述 
符 集 如 条 没有 初始 化 ， 那 么 可 能 发 生 不 可 预期 的 后 果 。 


Select 函数 的 中 间 三 个 参数 readset、writeset 和 exceptset 中 ， 如 果 
Ji TE TREN, BADE EIA STAT °° BSE, ll 
宁 这 三 个 指针 均 为 空 ， 我 们 束 有 了 一 个 比 Unix 的 Sleep 函数 更 为 精确 
的 定时 圳 《sleep 有 睡眠 以 秒 为 最 小 单位 ) 。po1l1 画 数 提供 类 似 的 功 
能 。APUE 的 图 C-9 和 图 C-10 给 出 了 一 个 使 用 select 和 pol1l 实 现 的 
sleep_us 函 数 ， 它 的 睡眠 以 微 秒 为 单位 。 


maxfdp1 参 数 指定 待 测试 的 描述 符 个 数 ， 它 的 值 是 待 测试 的 最 大 措 
述 符 加 1 (因此 我 们 把 该 参数 命名 为 maxfdp1) ， 描 述 符 0, 1 2, .…， 一 
直到 maxfdp1-1 均 将 被 测试 。 


头 文件 <sys/select.h> 中 定义 的 FD_SETSIZE 常 值 是 数据 类 型 
fd_set 中 的 描述 符 总 数 ， 其 值 通常 是 1024， 不 过 很 少 有 程序 用 到 那 
么 多 的 描述 符 。maxjfap1 参 数 迫 使 我 们 计算 出 所 关心 的 最 大 描述 符 并 告 
知 内 核 该 值 。 以 前 面 给 出 的 打开 描述 符 1、4 和 5 的 代码 为 例 ， 其 
maxfdp1 值 就 是 6。 是 6 而 不 是 5 的 原因 在 于 : 我 们 指定 的 是 描述 符 的 个 
数 而 非 最 大 值 ， 而 描述 符 是 从 0 开始 的 。 
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存在 这 个 参数 以 及 计算 其 值 的 额外 负担 纯粹 是 为 了 效率 原因 。 
个 fd_set 都 有 表示 大 量 描述 符 (典型 数量 为 1024) 的 空间 ， 然 而 一 
个 普通 进程 所 用 的 数量 却 少 得 多 。 内 核 正 是 通过 在 进程 与 内 核 之 间 不 
复制 描述 符 集 中 不 必要 的 部 分 ， 从 而 不 测试 总 为 0 的 那些 位 来 提高 效率 
的 〈TCPv2 的 16.13 节 ) 


select 函 数 修 改 由 指针 readset、writeset 和 exceptset 所 指向 的 描述 
符 集 ， 因 而 这 三 个 参数 都 是 值 一 结果 人 参数。 调用 该 函数 时 ， 我 们 指定 
所 关心 的 描述 符 的 值 ， 该 函数 返回 时 ， 结 果 将 指示 哪些 描述 符 已 台 
绪 。 该 函数 返回 后 ， 我 们 使 用 FD_ISSET 宏 来 测试 fd_set 数 据 类 型 中 
的 描述 符 。 摘 述 符 集 内 任何 与 未 吏 绪 撒 述 符 对 应 的 位 返回 时 均 清 成 0。 
为 此 ， 每 次 重新 调用 select 函 数 时 ， 我 们 都 得 再 次 把 所 有 描述 符 集 
内 所 关心 的 位 均 置 为 1。 


使 用 select 时 最 第 见 的 两 个 编程 错误 是 : 把 了 对 最 大 描述 符 加 
1; 瓦 了 描述 符 集 征 值 -结果 参数。 第 二 个 错误 导致 调用 Select 时， 描 
述 符 集 内 我 们 认为 是 1 的 位 却 被 置 为 0。 

该 男 数 的 返回 值 表示 跨 所 有 描述 符 集 的 已 束 绪 的 尽 位 数 。 如 末 在 


任何 描述 符 就 绪 之 前 定时 器 到 时 ， 那 么 返回 0。 返 回 -1 表示 出 错 (这 是 
可 能 发 生 的 ， 壁 如 本 函数 被 一 个 所 捕获 的 信号 中 断 ) 。 


SVR4 的 早期 版 本 中 select 的 实现 有 一 个 缺陷 : 如 果 返 回 时 多 个 
描述 符 集 内 的 同一 位 为 1， 璧 如 说 某 个 搞 述 符 既 准备 好 读 又 准备 好 写 的 
情况 ， 那 么 在 函数 返回 值 中 只 计 一 次 。 当 前 的 版 本 修正 了 这 个 缺陷 。 


6.3.1 FRAT RRR EE 


我 们 一 直 在 讨论 等 待 某 个 描述 符 准备 好 I/O ( 读 或 写 ) 或 是 等 待 其 
上 发 生 一 个 待 处 理 的 异常 条 件 〈 带 外 数据 ) 。 尽 管 可 读 性 和 可 写 性 对 
于 普通 文件 这 样 的 描述 符 显而易见 ， 然 而 对 于 引起 select 返 回 套 接 
字 “ 就 绪 ” 的 条 件 我 们 必须 讨论 得 更 明确 些 (TCPv2 的 图 16-52) 。 


(1) 满足 下 列 四 个 条 件 中 的 任何 一 个 时 ， 一 个 套 接 字 准 备 好 读 。 


a) 该 套 接 字 接收 缓冲 区 中 的 数据 字 节 数 大 于 等 于 套 接 字 接收 缓冲 
区 低 水 位 标记 的 当前 大 小 。 对 这 样 的 套 接 字 执 行 读 操作 不 会 阻塞 并 将 
返回 一 个 大 于 0 的 值 “也 就 是 返回 准备 好 读 入 的 数据 ) 。 我 们 可 以 使 用 
SO_RCVLOWAT 套 接 字 选项 设置 该 套 接 字 的 低 水 位 标记 。 对 于 TCP 和 
UDP 套 接 字 而 言 ， 其 默认 值 为 1。 


b) 该 连接 的 读 半 部 关闭 (也 就是 接收 了 FIN 的 TCP 连 接 ) 。 对 这 样 
的 套 接 字 的 读 操 作 将 不 阻塞 并 返回 0 (也 就 是 返回 EOF) 。 
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c) 该 套 接 字 是 一 个 监听 套 接 字 且 已 完成 的 连接 数 不 为 0。 对 这 样 的 
套 接 字 的 accept 通 常 不 会 阻 奢 ， 不 过 我 们 将 在 15.6 节 讲解 accept 可 
能 阻塞 的 一 种 时 序 条 件 。 


d) 其 上 有 一 个 套 接 字 错 误 符 处理。 对 这 样 的 套 接 字 的 读 控 作 将 不 
阻塞 并 返回 -1 (也 就 古 返 回 一 个 错误 ) ， 同 时 把 errno 设 置 成 确切 的 
错误 条 件 。 这 些 待 处理 错 误 (pending error) 也 可 以 通过 指定 
SO_ERROR 往 接 字 选项 调用 getsockopt 获 取 并 清除 。 


(2) 下 列 四 个 条 件 中 的 任何 一 个 满足 时 ， 一 个 套 接 字 准 备 好 写 。 


a) 该 套 接 字 发 送 缓 冲 区 中 的 可 用 空间 字 厄 数 大 于 等 于 套 接 字 发 送 
缓冲 区 低 水 位 标记 的 当前 大 小 ， 并 且 或 者 该 套 接 字 已 连接 ， 或 者 该 套 
接 字 不 需要 连接 《如 UDP 和 套 接 字 ) 。 这 意味 着 如 果 我 们 把 这 样 的 套 接 
字 设 置 成 非 阻塞 (lem) ， 写 操作 将 不 阻塞 并 返回 一 个 正 值 (如 由 
传输 层 接 受 的 字数 ) 。 我 们 可 以 使 用 SO_SNDLOWAT 套 接 字 选项 来 
设置 该 套 接 字 的 低 水 位 标记 。 对 于 TCP 和 UDP 套 接 字 而 言 ， 其 默认 值 
通常 为 2048。 


b) 该 连接 的 写 半 部 关闭 。 对 这 样 的 套 接 字 的 写 操作 将 产生 
SIGPIPE 信 号 (5.1277) œ 


c) 使 用 非 阻 塞 式 connect 的 套 接 字 已 建立 连 授 ， 或 者 connect 已 
经 以 失败 告终 。 


d) 其 上 有 一 个 套 接 字 错误 待 处 理 。 对 这 样 的 套 接 字 的 写 操作 将 不 
阻塞 并 返回 -1 (也 就 是 返回 一 个 错误 ) ， 同 时 把 errno 设 置 成 确切 的 
错误 条 件 。 这 些 待 处 理 的 错误 也 可 以 通过 指定 SO_ERROR 套 接 字 选项 
调用 getsockopt 获 取 并 清除 。 


(3) 如 末 一 个 套 接 字 存在 市 外 数据 或 者 仍 处 于 市 外 标记 ， 那 么 它 有 
异常 条 件 待 处理。 (我 们 将 在 第 24 草 中 讲述 市 外 数据 。) 


我 们 对 “可 读 性 ?和 “可 写 性 ”的 定义 直接 取 目 TCPv2 第 530~531 页 
中 内 核 的 soreadable 和 sowriteable 宏 。 与 此 类 似 ， 我 们 对 套 接 
字 “ 异 常 条 件 ” 的 定义 取 目 同一 页 中 的 S00_Select 函 数 。 


注意 : 当 某 个 套 接 字 上 发 生 错 误 时 ， 它 将 由 select 标 记 为 既 可 
读 又 可 写 。 


接收 低 水 位 标记 和 发 送 低 水 位 标记 的 目的 在 于 : 人 允许 应 用 进程 控 
制 在 select 返 回 可 读 或 可 写 条 件 之 前 有 多 少数 据 可 读 或 有 多 大 空间 
可 用 于 写 。 举 例 来 说 ， 如 果 我 们 知道 除非 至 少 存 在 64 个 字 市 的 数据 ， 
否则 我 们 的 应 用 进程 没有 任何 有 效 工作 可 做 ,那么 可 以 把 接收 低 水 位 
as 以 防 少 于 64 个 字 节 的 数据 准备 好 读 时 select 唤 醒 我 
[J ° 


任何 UDP 套 接 字 只 要 其 发 送 低 水 位 标记 小 于 等 于 发 送 缓冲 区 大 小 
Boe 束 总 是 可 写 的 ， 这 十 因为 UDP 套 接 字 不 需 
ES o 
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图 6-7 汇 总 了 上 上述 导 臻 select 返回 某 个 套 接 字 就 绪 的 条 件 。 
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图 6-7 select 返 回 某 个 套 接 字 就 绪 的 条 件 小 结 


6.3.2 ”select 的 最 大 描述 符 数 


早 些 时 候 我 们 说 过 ， 大 多 数 应 用 程序 不 会 用 到 许多 描述 符 。 璧 如 
说 我 们 很 少 能 找到 一 个 使 用 几 百 个 描述 符 的 应 用 程序 。 然 而 使 用 那么 
多 描述 符 的 应 用 程序 确实 存在 ， 它 们 往往 使 用 select 来 复 选 描述 
符 。 最 初 设计 select 时 ， 操 作 系 统 通常 对 每 个 进程 可 用 的 最 大 描述 
符 数 设置 了 上 限 (4.2BSD 的 限制 为 31) ，select 就 使 用 相同 的 限制 
值 。 然 而 当今 的 Unix 版 本 允许 每 个 进程 使 用 事实 上 无 限 数 目的 描述 符 
(往往 仅 受 限于 内 存 总 量 和 管理 性 限制 ) ， 因 此 我 们 的 问题 是 : 这 对 
select 有 什么 影响 ? 


许多 实现 有 类 似 于 下 面 的 声明 ， 它 取 目 4.4BSD 的 
<sys/types.h> 头 文件 : 


VA 
* select uses bitmasks of file descriptors in longs. These macros 
* manipulate such bit fields (the filesystem macros use chars). 
* FD_SETSIZE may be defined by the user, but the default here 
should 


* be enough for most uses. 
*/ 


Zifndef FD SETSIZE 
Zdefine FD SETSIZE 256 
Zendif 


这 使 我 们 想到 ， 可 以 在 包括 该 头 文件 之 前 把 FD_SETSIZE 定 义 为 
某 个 更 大 的 值 以 增加 select 所 用 描述 符 集 的 大 小 。 不 幸 的 是 ， 这 样 


做 通常 行 不 通 。9 


为 了 和 弄 清楚 到 底 出 了 什么 差错 ， 请 注意 TCPv2 的 网 16-53 声 明了 3 
个 在 内 核 中 的 描述 符 集 ， 并 把 内 核 的 FD_SETSIZE 定 义 作 为 上 限 使 
用 。 因 此 增 大 描述 符 集 大 小 的 唯一 方法 是 先 增 大 FD_SETSIZE 的 值 ， 
再 重新 编译 内 核 。 不 重新 编译 内 核 而 改变 其 值 是 不 够 的 。 


有 些 上 家 正在 将 select 的 实现 修改 为 允许 进程 将 FD_SETSIZE 
定义 为 比 默认 值 更 大 的 某 个 值 。BSD/OS 已 改变 了 内 核实 现 以 允许 更 大 
的 描述 符 集 ， 并 定义 了 四 个 新 的 FD_xxx 宏 用 于 动态 分 配 并 操纵 这 样 的 
描述 符 集 。 然 而 从 可 移植 性 考虑 ， 使 用 大 描述 符 集 需要 小 心 。 
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64 str_cliBm (修订 版 ) 


现在 我 们 可 以 使 用 select 重 写 5.5 节 中 的 str_c1i 函 数 了 ， 这 样 
服务 硕 进 程 一 终止 ， 客 户 束 能 马上 得 到 通知 。 早 移 那 个 版 本 的 问题 在 
T: 当 套 接 字 上 发 生 某 些 事件 时 ， 客 户 可 能 阻塞 于 fgets 调 用 。 新 版 
本 改 为 阻塞 于 select 调 用 ， 或 是 等 竺 标准 输入 可 读 ， 或 是 等 待 父 接 


字 可 读 。 图 6-8 展 示 了 调用 select 所 处 理 的 各 种 条 件 。 


在 标准 输入 或 僚 接 字 
select With} 


数据 或 EOF 一 一 >9 FRYE ^ 


RST Xi FIN 


图 6-8 ”str_cli 函 数 中 由 select 处 理 的 各 种 条 件 
客户 的 套 接 字 上 的 三 个 条 件 处 理 如 下 。 


(1) 如 果 对 端 TCP 发 送 数据 ， 那 么 该 套 接 字 变 为 可 读 ， 并 且 read 
返回 一 个 大 于 0 的 值 ( 即 读 入 数据 的 字 市 数 ) 


(2) 如 果 对 端 TCP 发 送 一 个 FIN (对 端 进程 终止 ) ， 那 么 该 套 接 字 
变 为 可 读 ， 并 且 read 返 回 0 (EOF) 。 


(3) 如 果 对 端 TCP 发 送 一 个 RST (SENATE) , 590 
么 该 套 接 字 变 为 可 读 ， 并 且 read 返 回 -1， 而 errno 中 含有 确切 的 错误 
jB o 

6-9 给 出 了 这 个 新 版 本 的 源 代码 。 


selectsurcliselect0l.c 


1 H:uclude "urip.hi" 


2 void 

3 str Sli|FILE *fp, int socktd) 

4í( 

5 int naxfda ; 

6 fd set rset; 

7 char eendline .MAXLINE], recv_ine|MAXLINE] ; 

8 TD 2BRC [Sraet); 

9 for (;;) { 

10 FD SaT(fileno(?o;, srset); 

11 FD E£zT(oocktd, Sroct) ; 

12 taxfdpl - maxizilsenc!fp), sockfd) + 1, 

13 Select (maxfdpl. &rsst, NIFT. MT, WOLE); 

ld if (FD ISSET(sockfd, &Lrse-)! [ /* sockat is readable */ 
is if (Readlins(sockEd, recvline, M^XLINE! «= 0} 

16 err quit('strz cli: server terminated premacuzely") : 
17 Fput sirecvline, stdou-): 

LE } 

19 it |FD ISSET(filcro(tp), àrset)) : /* input is rcacabic */ 
20 if ‘Pgetsisend_ine, MAXLINE. fp! “= NULL) 

21 re unm; /5 all done 4/ 

22 writen(seckfd, sendline, strlen(serdl-ne)),; 

22 } 

24 j 

28 ] 


selectisudiselectla 


图 6-9 使 用 select 的 str_c1Li 函 数 的 实现 (在 图 6-13 中 改进 ) 
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调用 select 


8-13 ”我 们 只 需要 一 个 用 于 检查 可 读 性 的 描述 符 集 。 该 集合 
FD_ZER0 初 始 化 ， 并 用 FD_SET 打 开 两 位 : 一 位 对 应 于 标准 IO 文件 指 
针 fp， 一 位 对 应 于 套 接 字 sockfd。fileno 郴 数 把 标准 IO 文件 指针 
转换 为 对 应 的 描述 符 。select (和 pol1) 只 工作 在 描述 符 上 。 


计算 出 两 个 描述 符 中 的 较 大 值 后 ， 调 用 select。 在 该 调用 中 ， 
写 集合 指针 和 异常 集合 指针 都 是 空 指针 。 最 后 一 个 参数 (时 间 限 制 ) 
也 是 空 指针 ， 因 为 我 们 布 户 本 调用 阻塞 到 某 个 描述 符 束 绪 为 止 。 


处 理 可 读 套 接 字 


14-18 如 果 在 select 返 回 时 套 接 字 是 可 读 的 ， 那 就 先 用 
readline 读 入 回 射 文本 行 ， 再 用 fputs 输 出 它 。 


处 理 可 读 输入 


19-23 如 果 标 准 输入 可 读 ， 那 就 先 用 fgets 读 入 一 行文 本 ， 再 
用 writen 把 它 写 到 套 接 字 中 。 
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请 注意 ， 这 个 版 本 使 用 了 与 5.5 节 的 版 本 相同 的 四 个 IO 郴 数 : 
fgets、writen、readline 和 fputs， 不 过 它们 在 本 函数 中 的 驱动 
流 发 生 了 变化 。 新 的 版 本 是 由 select 调 用 来 驱动 的 ， 而 旧 的 版 本 则 
是 由 fgets 调 用 来 驱动 的 。 与 图 5-5 相 比 ， 图 6-9 中 的 代码 仅 增加 了 几 
行 ， 束 大 大 提高 了 客户 程序 的 健壮 性 。 


65 ”批量 输入 


不 夷 的 是 ， 我 们 的 str_cli 函 数 仍然 不 正确 。 首 和 完 让 我 们 回 到 其 
最 初版 本 ， 即 图 5-5。 它 以 停 一 等 方式 工作 ， 这 对 交互 式 使 用 是 合适 
HJ: 发 送 一 行文 本 给 服务 器 ， 然 后 等 待 应答 。 这 段 时 间 是 往返 时 间 
(round-trip time, RTT) 加 上 服务 器 的 处 理 时 间 (对 于 简单 的 回 射 服 
Seal a, SERN LAO) ”。 如 有 果 知 道 了 客户 与 服务 器 之 间 的 
RTT， 我 们 便 可 以 佑 计 出 回 射 固定 数目 的 行 需 花 多 长 时 间 。 


ping 程 序 是 测量 RTT 的 一 个 简单 方法 。 我 们 曾经 从 自己 的 主机 
solaris 往 主机 connix.com 执 行 pDing 命 令 ， 得 到 30 次 测量 的 平均 
RTT 值 为 175 ms。TCPv1 第 89 页 说 明 ， 这 些 ping 测 量 所 用 的 是 长 度 为 
84 字 节 的 IP 数 据 报 。 如 果 提 取 Solaris 上 termcap 文 件 的 前 2000 行 ， 那 
么 所 得 文件 大 小 为 98349 个 字 节 ， 平 均 每 行 49 个 字 节 。 再 加 上 了 PP 首部 

(20047) 和 TCP 首 部 (207958 9) 的 大 小 ， 那 么 每 行 对 应 的 分 组 

大 小 约 为 89 个 字 节 ， 基 本 与 ping 分 组 的 大 小 一 致 。 这 么 一 来 ， 我 们 可 
以 估算 出 所 有 2000 行 文本 的 客户 处 理 时 间 大 约 为 350 秒 (2000x0.175 
PD) 。 如 果 运 行 第 5 章 中 的 TCP 回 射 客户 程序 ， 得 到 的 真实 时 间 大 约 为 
354 秒 ， 与 我 们 的 估计 非常 接近 。 

如 果 我 们 把 客户 与 服务 器 之 间 的 网 络 作 为 全 双 工 管道 来 考虑 ， 请 
求 是 从 客户 同 服务 器 发 送 ， 应 答 从 服务 器 癌 客 户 发 送 ， 那 么 图 6-10 展 
示 了 这 样 的 停 一 等 方式 。 
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时 刻 0: 


图 6-10” 停 一 等 方式 的 时 间 线 ， 交互 式 输入 


客户 在 时 刻 0 发 出 请 求 ， 我 们 假设 RTT 为 8 个 时 间 单 位 。 其 应 答 在 
时 刻 4 发 出 并 在 时 刻 7 接 收 到 。 我 们 还 假设 没有 服务 絮 处 理 时 间 而 且 请 


求 大 小 与 应 答 大 小 相同 。 图 6-10 仅 仅 展示 了 客户 与 服务 器 之 间 的 数据 
分 组 ， 而 忽略 了 同样 罕 越 网 络 的 TCP 确 认 。 


既然 一 个 分 组 从 管道 的 一 端 发 出 到 到 达 管 道 的 男 一 痢 存 在 延迟 ， 
而 管道 和 全 双 工 的 ， 束 本 例子 而 言 ， 我 们 仅仅 使 用 了 管道 容量 的 1/8。 
这 种 俘 一 等 方式 对 于 交互 式 输入 十 合适 的 ， 然 而 由 于 我 们 的 客户 是 从 
标准 输入 读 并 往 标 准 输出 写 ， 在 Unix 的 shell 环 境 下 重 定向 标准 输入 和 
标准 输出 又 是 轻而易举 之 事 ， 我 们 可 以 很 容易 地 以 批量 方式 运行 客 
户 。 当 我 们 把 标准 输入 和 标准 输出 重 定 癌 到 文件 来 运行 狐 的 客户 程序 
时 ， 却 发 现 输出 文件 总 是 小 于 输入 文件 (而 对 于 回 射 服务 器 而 言 ， 它 
们 理应 相等 ) 。 
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为 了 搞 清 楚 到 底 发 生 了 什么 ， 我 们 应 该 意识 到 在 批量 方式 下 ， 客 


尸 能 够 以 网 络 可 以 接受 的 最 快速 度 持续 发 送 请 求 ， 服 务 器 以 相同 的 速 
度 处 理 它们 并 发 回应 答 。 这 就 导致 时 刻 7 时 管道 充满 ， 如 图 6-11 所 示 。 


if 217: 


RARE 


-— 


图 6-11 填充 客户 与 服务 器 之 间 的 管道 : 批量 方式 

这 里 我 们 假设 发 出 第 一 个 请 求 后 ， 立 即 发 出 下 一 个 ， 紧 搂 春 再 下 
一 个 。 我 们 还 假设 客户 能 够 以 网 络 可 以 接受 它们 的 最 快速 度 持续 发 送 
请 求 ， 并 且 能 够 以 网 络 可 提供 给 它们 的 最 快速 度 处 理应 答 。 


这 里 我 们 忽略 了 涉及 TCP 批 量 数据 流 的 许多 微妙 问题 ， 例 如 限制 
数据 在 一 个 全 新 的 或 空 亲 的 连接 上 的 发 送 速率 的 慢 局 动 算法 ， 以 及 返 


回 的 ACK。 这 些 都 在 TCPv1 的 第 20 章 中 讨论 。 


为 了 搞 消 楚 图 6-9 中 的 str_cli 了 芳 数 存在 的 问题 ， 我 们 假设 输入 文 
件 只 有 9 行 。 最 后 一 行 在 时 刻 8 发 出 ， 如 图 6-11 所 示 。 写 完 这 个 请 求 
后 ， 我 们 并 不 能 立即 关闭 连接 ， 因 为 管道 中 还 有 其 他 的 请 求 和 应 管 。 
问题 的 起 因 在 于 我 们 对 标准 输入 中 的 EOF 的 处 理 : str cliB OU 
返回 到 main 函 数 ， 而 main 函 数 随后 终止 。 然 而 在 批量 方式 下 ， 标 准 
输入 中 的 EOF 并 不 意味 着 我 们 同时 也 完成 了 从 僚 接 字 的 读 入 ;可 能 仍 
有 请 求 在 去 往 服务 器 的 路 上 ， 或 者 仍 有 应 管 在 返回 客户 的 路 上 。 


我 们 需要 的 是 一 种 关闭 TCP 连 接 其 中 一 半 的 方法 。 也 就 是 说 ， 我 
们 想 给 服务 器 发 送 一 个 FIN， 告 诉 它 我 们 已 经 完成 了 数据 发 送 ， 但 是 
仍然 保持 套 接 字 描述 符 打 开 以 便 读 了 到。 这 由 将 在 下 一 节 讲 述 的 
shutdown KRH sé Ey, ° 


一 般 地 说 ， 为 提升 性 能 而 引入 缓冲 机 制 增加 了 网 络 应 用 程序 的 复 
杂 性 ， 图 6-9 所 示 的 代码 就 遭受 这 种 复杂 性 之 害 。 考 虑 有 多 个 来 和 目标 准 
输入 的 文本 输入 行 可 用 的 情况 。select 将 使 第 20 行 代码 用 fgets 读 
取 输 入 ， 这 又 转 而 使 已 可 用 的 文本 输入 行 被 读 入 到 stdio 所 用 的 缓冲 区 
中 。 然 而 fgets 只 返回 其 中 第 一 行 ， 其 余 输 入 行 仍 在 stdio 绥 冲 区 中 。 
第 22 行 代码 把 fgets 返 回 的 单个 输入 行 写 给 服务 器 ， 随 后 select 再 
次 被 调用 以 等 待 新 的 工作 ， 而 不 管 stdio 缓 冲 区 中 还 有 额外 的 输入 行 待 
消费 。 究 其 原因 在 于 select 不 知道 stdio 使 用 了 缓冲 区 一 一 它 只 是 从 
read 系 统 调用 的 角度 指出 是 否 有 数据 可 读 ， 而 不 是 从 fgets 之 类 调用 
的 角度 考虑 。 基 于 上 述 原 因 ， 混 合 使 用 stdio 和 和 select 被 认为 是 非常 
容易 犯错 误 的 ， 在 这 样 做 时 必须 极其 小 心 。 
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同样 的 问题 存在 于 图 6-9 的 readline 调 用 中 。 这 回 select 不 可 
见 的 数据 不 是 隐藏 在 stdio 缓 冲 区 中 ， 而 是 隐藏 在 read1ine 上 自己 的 组 
冲 区 中 。 回 顾 3.9 世 我 们 提供 的 一 个 可 以 看 到 read1ine 绥 冲 区 的 函 
数 ， 因 此 可 能 的 解决 办 法 之 一 是 修改 我 们 的 代码 ， 在 调用 Select 之 
前 使 用 那个 函数 ， 以 查看 是 否 存在 已 经 读 入 而 尚未 消费 的 数据 。 然 而 
为 了 处 理 read1ine 缓 冲 区 中 既 可 能 有 不 完整 的 输入 行 (意味 着 我 们 
需要 继续 读 入 ) ， 也 可 能 有 一 个 或 多 个 完整 的 输入 行 (这 些 行 我 们 可 


以 直接 消费 ， 这 两 种 情况 而 引入 的 复杂 性 会 迅速 增长 到 难以 控制 的 地 


我 们 将 在 6.7 市 给 出 的 str_c1li 改 进 后 版 本 中 解决 这 些 缓冲 区 问 


题 


66 shutdownER2A 


终止 网 络 连 接 的 通常 方法 是 调用 close 函 数 。 不 过 close 有 两 个 
限制 ， 却 可 以 使 用 shutdown 来 避免 。 


(1) close 把 描述 符 的 引用 计数 减 1， 仅 在 该 计数 变 为 0 时 才 关 闭 套 
接 字 。 我 们 已 在 4.8 节 讨论 过 这 一 点 。 使 用 Shutdown 可 以 不 管 引 用 计 
数 就 激发 TCP 的 正常 连接 终止 序列 (图 2-5 中 由 FIN 开 始 的 4 个 分 节 ) 。 


(2) close 终 止 读 和 写 两 个 方向 的 数据 传送 。 有 既然 TCP 连 接 钙 全 双 
工 的 ， 有 时 候 我 们 需要 告知 对 端 我 们 已 经 完成 了 数据 发 送 ， 即 使 对 端 
仍 有 数据 要 发 送 给 我 们 "这 就 是 我 们 在 击 一 三 中 遇 到 的 str_c1i 国 数 
在 批量 输入 时 的 情况 。 图 6-12 展 示 了 这 样 的 情况 下 典型 的 函数 调用 。 


readijl [ul X0 
readijl [ul R#0 
readi& ln] 0 
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图 6-12 ”调用 shutdown 关 闭 一 半 TCP 连 接 


= 
N 
N 


#include <sys/socket.h> 


int shutdown(int sockfd, int howto); 


返回 : 若 成 功 则 为 9， 


若 出 错 则 为 -1 


该 男 数 的 行为 依赖 于 howto 参 数 的 值 。 


SHUT RD ”关闭 连接 的 读 这 一 半 一 一 套 接 字 中 不 再 有 数据 可 接 
收 ， 而 且 套 接 字 接收 缓冲 区 中 的 现 有 数据 者 被 丢弃 。 进程 不 能 再 对 这 
样 的 套 接 字 调用 任何 读 函 数 。 对 一 个 TCP 套 接 字 这 样 调用 shutdown 
图 数 后 ， 由 该 套 接 字 接收 的 来 目 对 端的 任何 数据 都 被 确认 ， 然 后 悄然 


ER 


默认 情形 下 ， 写 入 一 个 路 由 套 接 字 (第 18 章 ) 中 的 所 有 数据 都 被 
作为 同一 个 主机 上 所 有 路 由 套 接 字 的 可 能 输入 环 回 。 有 些 程序 把 第 二 
个 参数 指定 为 SHUT_RD 来 调用 shutdown 画 数 以 防止 环 回复 制 。 防 止 
环 回复 制 的 另 一 种 方法 是 关闭 SO_USELOOPBACK 套 接 字 选项 。 


SHUT WR 关闭 连接 的 写 这 一 半 一 一 对 于 TCP 套 接 字 ， 这 称 为 半 
关闭 (half-close， 见 TCPv1 的 18.5 节 ) 。 当 前 留 在 套 接 字 发 送 缓冲 区 中 
的 数据 将 被 发 送 掉 ， 后 跟 TCP 的 正常 连接 终止 序列 。 我 们 已 经 说 过 ， 
不 管 依 接 字 描述 符 的 引用 计数 是 否 等 于 0， 这 样 的 写 半 部 关闭 照样 执 
行 。 进 程 不 能 再 对 这 样 的 套 接 字 调 用 任何 写 函 数 。 


SHUT RDWR ”连接 的 读 半 部 和 写 半 部 都 关闭 一 一 这 与 调用 
shutdown 两 次 等 效 : 第 一 次 调用 指定 SHUT_RD， 第 二 次 调用 指定 
SHUT. WR ° 


图 7-12 将 汇总 进程 调用 shutdown 或 close 的 各 种 可 能 。close 
的 操作 取决 于 SO0_LINGER 套 接 字 选 项 的 值 。 


这 三 个 SHUT_xox 名 字 由 POSIX 规 范 定义 。howto 参 数 的 典型 值 将 
会 是 0 (关闭 读 浊 部 ) 、1 (关闭 写 半 部 ) 和 2 ( 恋 半 部 和 写 半 部 都 关 
HD 


67 str cliENZX (再 修订 版 ) 


图 6-13 给 出 str_cli 函 数 的 改进 ( 且 正 确 ) 版 本 。 它 使 用 了 
select 和 shutdown， 其 中 前 者 只 要 服务 絮 天 闭 它 那 一 端的 连接 就 会 
通知 我 们 ， 后 者 允许 我 们 正确 地 处 理 批量 输入 。 这 个 版 本 还 废弃 了 以 
文本 行为 中 心 的 代码 ， 改 而 针对 缓冲 区 操作 ， 从 而 消除 了 6.5 节 中 提出 
的 复杂 性 问题 。 
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clectsircliselect0z.c 


1 Hiuclude * urip. hi" 

2 void 

3 str -li!FILB *fp. irt sockxfd) 

à ( 

5 int naxfdpl. stdinsof; 

6 fd oct roez; 

7 char buf [MAXLINE' ; 

a int n; 

3 stdineof - 0; 

10 FD ZRERO(&cset:); 

11 für | $ Ket 

12 it jstdincof == 0) 

13 FD SET(fileno!fp', &rset); 

14 FD SET (srk fd, &rwel'; 

15 maxfapl ~ maxizileno(tp), sockfd) + 1; 

16 felect(maxfdpl, &rsst, NULL, NULL, NULL); 

17 if {FD_ISSET(sockfd, &rze-)) ( /* cocker is readable */ 
18 if | in = Read(cockfd, buf, MAMLINE)) == 9) f 

19 if ‘stdineof == 1) 

20 retium: /* normal termination */ 
21 alse 

22 crr quit("otr cll: server terminatcd prematurely"): 
25 ) 

44 Arita/fileno(st2out), buf, n): 

25 } 

26 if ‘FD ISSET(fileno(fr), &rsec)) [ /= input is reacabl= */ 
27 at | in = Read|filero(fp), but, MAXLINz]) == 01 { 
28 stdineof - 1; 

29 Shutdown (sex kT, SWITT WR): /* send FIN 4/ 

30 FD cuPR(flleno(fp), &rse-): 

31 continue; 

32 ] 

33 ^riten(sockfd, but, n); 

34 ) 

35 ] 

36 ] 


geletisirrlisslectiz i 


图 6-13 ”使 用 select 正 确 处 理 EOF 的 str_c1i 函 数 


5-8 stdineof 是 一 个 初始 化 为 0 的 新 标志 。 只 要 该 标志 为 0， 
每 次 在 主 循环 中 我 们 总 是 select 标 准 输入 的 可 读 性 。 


17-25 当 我 们 在 套 接 字 上 读 到 EOF 时 ， 如 果 我 们 已 在 标准 输入 
上 过 到 EOF， 那 就 是 正常 的 终止 ， 于 是 函数 返回 ; 但 是 如 果 我 们 在 标 
准 输入 上 没有 过 到 EOF， 那 么 服务 器 进程 已 过 早 终止 。 我 们 改 用 read 
a 区 而 不 是 文本 行进 行 操 作 ， 使 得 select 能 够 如 期 地 
T o 
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26-34 当 我 们 在 标准 输入 上 碰 到 EOF 时 ， 我 们 把 新 标志 
stdineof 置 为 1， 并 把 第 二 个 参数 指定 为 SHUT_WR 来 调用 Shutdown 
以 发 送 FIN 。 这 儿 我 们 也 改 用 read 和 write 对 缓冲 区 而 不 是 文本 行进 
{TERE o 


我 们 对 str_cli 函 数 的 讨论 还 没有 结束 。16.2 节 中 我 们 将 开发 一 
ros 非 阻塞 式 WO 模型 的 版 本 ，26.3 市 中 我 们 将 开发 一 个 使 用 线程 的 


6.8 ”TCP 回 射 服务 器 程序 (修订 版 ) 


我 们 可 以 回顾 5.2 廊 和 5.3 市 中 讲解 的 TCP 回 射 服务 妮 程 序 ， 把 它 重 
写成 使 用 Select 来 处 理 任意 个 客户 的 单 进程 程序 ， 而 不 是 为 每 个 客 
户 派生 一 个 子 进程 。 在 给 出 具体 代码 之 前 ， 让 我 们 先 查 看 用 以 跟踪 客 
户 的 数据 结构 。 图 6-14 给 出 了 第 一 个 客户 建立 连接 前 服务 器 的 状态 。 


WA ate 


图 6-14 第 一 个 客户 建立 连接 前 的 服务 器 状态 
服务 器 有 单个 监听 描述 符 ， 我 们 用 一 个 圆 点 来 表示 。 


服务 器 只 维护 一 个 读 描述 符 集 ， 如 图 6-15 所 示 。 假 设 服 务 句 是 在 
前 人 台 局 动 的 ， 那 么 描述 符 0、1 和 2 将 分 别 被 设置 为 标准 输入 、 标 准 输出 
和 标准 错误 输出 。 可 见 监 听 套 接 字 的 第 一 个 可 用 描述 符 是 3。 图 6-15 还 
展示 了 一 个 名 为 client 的 整 型 数组 ， 它 含有 每 个 客户 的 已 连接 套 接 
字 搬 述 符 。 该 数组 的 所 有 元 素 都 修 初 始 化 为 -1。 


client [] : 


reet:| 0 | 0 | ü : 1 
TT PT | 


图 6-15” 仪 有 一 个 监听 套 接 字 的 TCP 服 务 器 的 数据 结构 


= 
N 
Ul 


描述 符 集中 唯一 的 非 0 项 是 表 示 监 听 套 接 字 的 项 ， 因 此 select 的 
第 一 个 参数 将 为 4。 


当 第 一 个 客户 与 服务 器 建立 连接 时 ， 监 听 描述 符 变 为 可 读 ， 我 们 


的 服务 器 于 是 调用 accept。 在 本 例 的 假设 下 ， 由 accept 返 回 的 新 的 
已 连接 描述 符 将 是 4。 图 6-16 展 示 了 从 客户 到 服务 器 的 连接 。 


WA A 


图 6-16 ”第 一 个 客户 建立 连接 后 的 TCP 服 务 器 


从 现在 起 ， 我 们 的 服务 器 必须 在 其 clLient 数 组 中 记 住 每 个 新 的 
已 连接 描述 符 ， 并 把 它 加 到 描述 符 集 中 去 。 几 6-17 展 示 了 这 样 更 新 后 


的 数据 结构 。 


| 
4j 
图 6-17 第 一 个 客户 连接 建立 后 的 数据 结构 

稍 后 ， 第 二 个 客户 与 服务 器 建 


IFD SETSIZE-1] 


< 


连接 ， 图 6-18 展 示 了 这 种 情形 。 


I 
"E 
bo 


图 6-18 ”第 二 个 客户 建立 连接 后 的 TCP 服 务 器 


PN CER (Bes) 必须 被 记 住 ， 从 而 给 出 如 图 6-19 所 
示 的 数据 结构 。 
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client[:: 


图 6-19 ”第 二 个 客户 连接 建立 后 的 数据 结构 


我 们 接着 假设 第 一 个 客户 终止 它 的 连接 。 该 客户 的 TCP 发 送 一 个 
FIN， 使 得 服务 器 中 的 描述 符 4 变 为 可 读 。 当 服务 絮 读 这 个 已 连接 套 接 
字 时 ，read 将 返回 0。 我 们 于 是 关闭 该 套 接 字 并 相应 地 更 新 数据 结 
构 : 把 client[9] 的 值 置 为 -1， 把 描述 符 集 中 描述 符 4 的 位 设置 为 0， 
如 图 6-20 所 示 。 注 意 ，maxfd 的 值 没 有 改变 。 


client Í): 


nr 
4 5i "maxfd «1-6 - 


图 6-20 ”第 一 个 客户 终止 连接 后 的 数据 结构 


总 之 ， 当 有 客户 到 达 时 ， 我 们 在 cLient 数 组 中 的 第 一 个 可 用 项 

( 即 值 为 -1 的 第 一 个 项 ) 中 记录 其 已 连接 套 接 字 的 描述 符 。 我 们 还 必 

须 把 这 个 已 连接 搞 述 符 加 到 读 描述 符 集 中 。 变 量 maxi 是 cLient 数 组 

当前 使 用 项 的 最 大 下 标 ， 而 变量 maxfd (加 1 之 后 ) select HAs 

一 个 参数 的 当前 值 。 对 于 本 服务 器 所 能 处 理 的 最 大 客户 数目 的 限制 古 

以 下 两 个 值 中 的 较 小 者 : FD_SETSIZE 和 内 核 允许 本 进程 打开 的 最 大 
描述 符 数 (我 们 在 6.3 节 结尾 处 讨论 过 它 ) 
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图 6-21 给 出 了 这 个 版 本 服务 器 程序 的 前 半 部 分 。 


tcpeliservitopservselectül.c 


1 #include "up. ti" 

2 int 

3 main(int argc, char **arqv) 

4 1 

5 int i, maxi, maxfd. Listerfd, connfd, sockfd; 
€ int nready, client [FD SETSIZE) ; 

7 osl-ze t n; 

ê fd sez rset, allset; 

a char buf [MAXLIME] ; 

JU sccklan t clilen; 

1i struct sockacdr in cliaddr, scrzva3dr; 

12 listenfd = Socket [AF_INET, SOCK SIREAM, 01; 

13 bzero(&wervacdr, sizeof(servaddri); 

14 eervaddr.cin family - AP INET; 

15 servadd-z.ain addr.s addr = htonl (INADDR_ANY) ; 

16 servaddr.sin port = atans{SERV_PORT) ; 

17 Bind/listentc, (SA +) &servaddr, sizeof (servedér)); 
15 Listen!listerf3, LIS'TENQ); 

19 maxfd = listenfd; /* initialize */ 

20 maxi = -1; /* index into client[) array */ 
"ot fcr {i - 0; i < PD SETSIZE; i++) 

z2 ciient[i] = -1; /* -TI indicates available entry * 
23 F2 ZBD3O(&allset'; 

24 F2 SET!listerfd, &allset); 


tcpcliservitzeservsetectül.c 


图 6-21 使 用 单 进程 和 select 的 TCP 服 务 器 程序 ， 初 始 化 


创建 监听 套 接 字 并 为 调用 select 进 行 初始 化 

12-24 创建 监听 套 接 字 的 步骤 与 早先 版 本 一 样 : socket >` 
bind 和 1isten。 我 们 按照 一 开始 select 的 唯一 描述 符 是 监听 描述 
符 这 一 前 提 初 始 化 我 们 的 数据 结构 。 
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main 函 数 的 后 半 部 分 示 于 图 6-22 中 。 


tepeliserwitcprervselectO1.c 


25 ford 23) { 

26 rsat - allset; /* structure assignment */ 

27 nrsady = Select(mzxEd:1, rset, NULL, NULL, NULL;; 

26 if (FD_ISGET(listenfd, srset)! | /* new client connection */ 
29 clilen = sizenf (cli addr!i; 

30 connfd = Accept(listenfd, (SA *) acliaddr, &clilen]; 
31 for (i = O; i < FO ESEISIZZ; i++} 

32 if clientii] < 0) ( 

33 client [i] = connfd; /* save descriptor */ 
34 break; 

35 } 

36 if {i -- FD SECSIZE) 

37 err quit (tno many clients"); 

36 FD SzT(connfd, sallset); /* add new descriptor to sat */ 
3e if /connzd > maxfd) 

40 maxfd = conná; /* for select */ 

41 if (i > mxi} 

a2 maxi = i: /* max index in client[] array */ 
43 if | nready <= 0) 

i4 continue; /* no more readable descriptors */ 
45 } 

4€ for (i - G; i <- maxi; i++) ( /™ check all clients for data v/ 
7 if i (oock = client[i]) < 6} 

46 zont inue; 

as if [FD ISSET (soc-k£d, &rse-)! 

50 if | in = kead{eockfd, but, MAXLINE)) == O} | 

51 /*connection closed cy client */ 

52 Cluseisuck£1!; 

3 sD CLR(sockfd, sallset); 

54 client [i] = -2; 

55 } else 

SE Writen(sockfd, tuf, ni; 

55 if |--nready <= 0) 

sé break; /* no more readable descriptors */ 
59 } 

60 } 

E ) 

62 ) 


Icpclservitopservsetectól.c 


图 6-22 使 用 单 进程 和 select 的 TCP 服 务 器 程序 .循环 
阻塞 于 select 


26-27 select 等 待 某 个 事件 发 生 : 或 是 新 客户 连接 的 建立 ， 
或 是 数据 、FIN 或 RST 的 到 达 » 
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accept 新 的 连接 


28-45 如 果 监 听 套 接 字 变 为 可 读 ， 那 么 已 建立 了 一 个 新 的 连 
接 。 我 们 调用 accept 并 相应 地 更 新 数据 结构 ， 使 用 clLient 数 组 中 的 
第 一 个 未 用 项 记录 这 个 已 连接 描述 符 。 就 绪 描 述 符 数目 减 1， 若 其 值 变 
为 0， 就 可 以 避免 进入 下 一 个 for 循 环 。 这 样 做 让 我 们 可 以 使 用 
select 的 返回 值 来 避免 检查 未 就 绪 的 描述 符 。 


检查 现 有 连接 


46-60 对 于 每 个 现 有 的 客户 连接 ， 我 们 要 测试 其 朱 述 符 是 否 在 
selec tik PARRER E > MREMA APRA TLEH EA 
给 它 。 如 果 该 客户 关闭 了 连接 ， 那 么 read 将 返回 0， 我 们 于 是 相应 地 
更 新 数据 结构 。 


我 们 从 不 减少 maxi 的 值 ， 不 过 每 次 有 客户 关闭 其 连接 时 ， 我 们 可 
以 检查 是 否 存在 这 样 的 可 能 性 。 


本 服务 器 程序 版 本 比 图 5-2 和 图 5-3 所 示 的 版 本 复杂 ， 不 过 它 避 免 
了 为 每 个 客户 创建 一 个 新 进程 的 所 有 开销 ， 因 而 是 一 个 使 用 select 
的 精彩 例子 。 尽 管 如 此 ， 我 们 仍 将 在 16.6 节 讲解 本 服务 器 程序 存在 的 
一 个 问题 ， 不 过 通过 将 监听 套 接 字 设 置 成 非 阻 塞 ， 然 后 检查 并 忽略 来 
自 accept 的 若干 错误 可 以 很 容易 地 解决 该 问题 。 


拒绝 服务 型 攻击 


不 注 的 是 ， 我 们 刚刚 给 出 的 服务 器 程序 存在 一 个 问题 。 考 虑 一 下 
如 有 果 有 一 个 恶意 的 客户 连接 到 该 服务 器 ， 发 送 一 个 字 市 的 数据 (不 是 
换行 符 ， 后 进入 睡眠 ， 将 会 发 生 什么 。 服 务 器 将 调用 read， 它 从 客户 
读 入 这 个 单字 市 的 数据 ， 然 后 阻塞 于 下 一 个 read 调 用 ， 以 等 等 来 目 该 
客户 的 其 余数 据 。®% 服 务 器 于 是 因为 这 么 一 个 客户 而 被 阻塞 ( 称 它 
被 “ 挂 起 ”也 许 更 确切 些 ， ， 不 能 再 为 其 他 任何 客户 提供 服务 〈 不 论 是 
接受 新 的 客户 连接 还 是 读 取现 有 客户 的 数据 ) ， 直 到 那个 恶意 客户 发 
出 一 个 换行 符 或 者 终止 为 止 。 


这 里 的 一 个 基本 概念 是 ， 当 一 个 服务 器 在 处 理 多 个 客户 时 ， 它 绝 

对 不 能 阻塞 于 只 与 单个 客户 相关 的 某 个 函数 调用 。 否 则 可 能 导致 服务 
器 被 挂 起 ， 拒 绝 为 所 有 其 他 客户 提供 服务 。 这 就 是 所 谓 的 拒绝 服务 

(denial of service) 型 攻击 。 它 殉 是 针对 服务 万 做 些 动作 ， 导 致 服务 


器 不 再 能 为 其 他 合法 客户 提供 服务 。 可 能 的 解决 办 法 包括 : (a) 使 用 
非 阻塞 式 IO (第 16 章 ) ; b) 让 每 个 客户 由 单独 的 控制 线程 提供 服 
务 (例如 创建 一 个 子 进程 或 一 个 线程 来 服务 每 个 客户 ) = (co 对 IO 
操作 设置 一 个 超时 (14.275) 
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6.9 pselect WAX 


pselect 函 数 是 由 POSIX 发 明 的 ， 如 今 有 许多 Unix 变 种 支持 它 。 


#include <sys/select.h> 
#include <signal.h> 
#include <time.h> 


int pselect(int maxfdpi, fd set *readset, fd set *writeset, fd set 
*exceptset, 


const struct timespec *timeout, const sigset t 
*sigmask); 


返回 : 若 有 就 绪 描述 符 则 为 其 数目 ， 若 超时 则 


普 则 为 -1 


pselect 相 对 于 通常 的 Select 有 两 个 变化 。 


(1) pselect 使 用 timespec 结 构 ， 而 不 使 用 timeval 结 构 。 
timespec 结 构 是 POSIX 的 又 一 个 发 明 。 


struct timespec { 
time_t tv_sec; /* seconds */ 
long tv_nsec; /* nanoseconds */ 


}; 


这 两 个 结构 的 区 别 在 于 第 二 个 成 员 : 新 结构 的 该 成 员 tv_nsec 指 
定 纳 秒 数 ， 而 旧 结 构 的 该 成 员 tv_usec 指 定 微 秒 数 。 


(2) pselect 函 数 增加 了 第 六 个 参数 : 一 个 指 辣 信和 号 掩 码 的 指 
针 。 该 参数 允许 程序 先 禁 止 递交 某 些 信号 ， 再 测试 由 这 些 当前 被 禁 
言 号 的 信号 处 理 函 数 设 置 的 全 局 变量 ， 然 后 调用 pselect， 告诉 它 重 
狐 设 置信 号 掩 码 。 


关于 第 二 点 ， 考 虑 下 面 的 例子 GEAPUEB308~309N ie) 。 
这 个 程序 的 SIGINT 信 和 号 处 理 函 数 仅 仅 设置 全 局 变量 intr_f1lag 并 返 
回 。 如 果 我 们 的 进程 阻塞 于 select 调 有 用， 那么 从 信号 处 理 函 数 的 返 


回 将 导致 select 返 回 EINTR 错 误 。 然 而 调用 select 时 ， 代 码 看 起 来 
大 体 如 下 : 


if (intr_flag) 
handle_intr(); /* handle the signal */ 
if ( (nready = select( ... )) < 0) { 
if (errno == EINTR) { 
if (intr_flag) 


handle intr(); 
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问题 是 ， 在 测试 intr_flag 和 调用 select 之 间 如 果 有 信和 号 发 
生 ， 那 么 知 select 永 远 阻 塞 ， 该 信号 将 丢失 。 有 了 pselect 后 ， 我 
们 可 以 按 以 下 方式 可 靠 地 编写 这 个 例子 的 代码 : 


Sigset_t newmask, oldmask, zeromask; 


sigemptyset(&zeromask); 
sigemptyset(&newmask); 
sigaddset(&newmask, SIGINT); 


sigprocmask(SIG BLOCK, &newmask, &oldmask); /* block SIGINT */ 
if (intr flag) 


handle intr(); /* handle the signal */ 
if ( (nready = pselect( ... , &zeromask)) « 0) { 
if (errno == EINTR) { 
if (intr_flag) 
handle_intr(); 


feMiintr_flageHz Bi, Fi lH2ESIGINT » 4pselect#K 
调用 时 ， 它 先 以 空 集 (BHüzeromask) 替代 进程 的 信号 掩 码 ， 再 检查 
描述 符 ， 并 可 能 进入 睡眠 。 然 而 当 pselect 函 数 返 回 时 ， 进 程 的 信和 号 
掩 码 又 被 重 置 为 调用 pselect 之 前 的 值 〈 即 SIGINT 被 阻塞 ) 。 


我 们 将 在 20.5 节 对 pselLect 作 更 多 的 讨论 ， 并 给 出 一 个 它 的 例 
子 。 其 中 图 20-7 使 用 了 pselect， 图 20-8 给 出 pselect 的 一 个 简单 但 
不 太 正 确 的 实现 。 


这 两 个 select 琴 数 还 有 男 外 一 个 小 区 别 。timeval 结 构 的 第 一 
个 成 员 是 有 符号 的 长 整数 ， 而 timespec 结 构 的 第 一 个 成 员 是 
time_t。 前 者 的 有 符号 长 整数 本 也 应 该 是 time_t， 不 过 并 没有 做 这 
样 的 追溯 性 修改 ， 以 防 破坏 已 有 代码 。 而 全 新 的 pselect 函 数 可 以 做 
这 样 的 修改 。 


6.10 poll HX 


pol1 函 数 起 源 于 SVR3， 最 初 局 限于 流 设备 (第 31 章 ) 。SVR4 取 
消 了 这 种 限制 ， 允 许 po1L1 工 作 在 任何 描述 符 上 。pol11 提 供 的 功能 后 
Select 类似， 不 过 在 处 理 流 设备 时 ， 它 能 够 提供 额外 的 信息 。 


#include <poll.h> 
int poll(struct pollfd *fdarray, unsigned long nfds, int timeout); 


返回 : 若 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 


为 0，， 阁 出错 则 为 -1 
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第 一 个 参数 是 指 同 一 个 结构 数组 第 一 个 元 素 的 指针 。 每 个 数组 元 
素 者 是 一 个 po11fd 结 构 ， 用 于 指定 测试 某 个 给 定 描述 符 fd 的 条 件 。 


struct pollfd { 
int fd; /* descriptor to check */ 
short events; /* events of interest on fd */ 
short revents; /* events that occurred on fd */ 


i 


SoMa A Aeventshinfae, KREMDAreventshyin 
中 返回 该 描述 符 的 状态 。 (每 个 描述 符 都 有 两 个 变量 ， 一 个 为 调用 
值 ， 另 一 个 为 返回 结 有 末 ， 从 而 避免 使 用 值 一 结 末 参数 。 回 想 select 
函数 的 中 间 三 个 参数 都 是 值 一 结果 参数 。) 这 两 个 成 员 中 的 每 一 个 都 
由 指定 某 个 特定 条 件 的 一 位 或 多 位 构成 。 图 6-23 列 出 了 用 于 指定 
events 标 志 以 及 测试 revents 标 志 的 一 些 常 值 。 


ti events Fite ATI? fE H revenis tk A nd 2 说 明 


POLLIN ° 普通 或 优先 级 市 数据 可 读 


POLLRDNORM " . 普通 数据 可 读 

POLLRDEAND . . 优先 级 布 数 据 可 读 

POLLPRI . . 商 优 先 级 数据 可 该 

POLLOUT E . 普通 数据 可 写 

POLLNRNOHM . . 普通 数据 可 写 

PULLWRSAND . + 优先 级 市 数据 可 写 

POLLERR . 发 生 错 误 

POLLHUP . 发 生 挂 起 

POLLNVAL . 描述 符 不 是 一 个 打开 的 文件 


图 6-23 ”po11 函 数 的 输入 events 和 返回 revents 


我 们 将 该 图 分 为 三 个 部 分 : 第 一 部 分 是 处 理 输入 的 四 个 常 值 ， 第 
二 部 分 是 处 理 和 输出 的 三 个 常 值 ， 第 三 部 分 是 处 理 错误 的 三 个 常 值 。 其 
中 第 三 部 分 的 三 个 常 值 不 能 在 events 中 设置 ， 但 是 当 相 应 条 件 存在 
时 就 在 revents 中 返回 。 


po11 识 别 三 类 数据 : 普通 (normal) 、 优 先 级 带 (priority band) 
和 高 优先 级 (high priority) 。 这 些 术 语 均 出 自 基于 流 的 实现 (图 31- 
5 o 


POLLIN 可 被 定义 为 POLLRDNORM 和 POLLRDBAND 的 逻辑 或 。 
POLLIN 上 自 SVR3 实 现 就 存在 ， 早 于 SVR4 中 的 优先 级 带 ， 为 了 向 后 兼 
容 ， 该 常 值 继续 保留 。 类 似 地 ，POLLOUT 等 同 于 POLLWRNORM， 前 者 
早 于 后 者 。 


束 TCP 和 UDP 套 接 字 而 言 ， 以 下 条 件 引 起 po1ll1 返 回 特定 的 
revent。 不 幸 的 是 ，POSIX 在 其 po1L1 的 定义 中 留 了 许多 空洞 (也 就 是 
说 有 多 种 方法 可 返回 相同 的 条 件 ) 。 
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。 所 有 正规 TCP 数 据 和 所 有 UDP 数据 都 被 认为 是 普通 数据 。 

。TCP 的 带 外 数据 (第 24 章 ) 被 认为 是 优先 级 带 数 据 。 

。 当 TCP 连 接 的 读 半 部 关闭 时 〈 璧 如 收 到 了 一 个 来 自 对 端的 FIN) ， 
也 被 认为 是 普通 数据 ， 随 后 的 读 操 作 将 返回 0。 


。TCP 连 接 存 在 错误 既 可 认为 是 普通 数据 ， 也 可 认为 是 错误 
(POLLERR) 。 无 论 哪 种 情况 ， 随 后 的 读 操 作 将 返回 -1， 并 把 
errno 设 置 成 合适 的 值 。 这 可 用 于 处 理 诸如 接收 到 RST 或 发 生 超 

时 等 条 件 。 

在 监听 套 接 字 上 有 新 的 连接 可 用 既 可 认为 是 普通 数据 ， 也 可 认为 
是 优先 级 数据 。 大 多 数 实 现 视 之 为 普通 数据 。 

。 非 阻塞 式 connect 的 完成 被 认为 是 使 相应 套 接 字 可 写 。 


结构 数组 中 元 素 的 个 数 是 由 nfds 参 数 指 定 。 

历史 上 这 个 参数 曾 被 定义 为 无 符号 长 整数 (unsigned 
long) ， 似 乎 过 分 大 了 。 定 义 为 无 符号 整数 (unsigned int) 可 
能 就 足够 了 。Unix 98 为 该 参数 定义 了 名 为 nfds_t 的 新 的 数据 类 型 。 


timeout 参 数 指定 p011 函 数 返 回 前 等 每 多 长 时 间 。 它 古 一 个 指定 应 
等 待 毫秒 数 的 正 值 。 图 6-24 给 出 了 它 的 可 能 取 值 。 


timeout 


INFT:M ik UL En 待 


9 立即 返回 ， 不 阻塞 进程 
id: 等 待 指定 数目 的 毫秒 数 


图 6-24 ”pol1 的 timeout 参 数值 


INFTIM 篆 值 被 定义 为 一 个 人 负 值 。 如 果 系 统 不 能 提供 双 秒 级 精度 
的 定时 器 ， 该 值 束 同上 舍 入 到 最 接近 的 文 持 值 。 


POSIX 规 范 要 求 在 头 文件 <pol1.h> 中 定义 INFTIM， 不 过 许多 系 
统 仍然 把 它 定 义 在 头 文件 <sys/stropts .h> 中 。 


正如 select， 给 po11 指 定 的 任何 超时 值 都 受 限 于 实际 系统 实现 的 
时 钟 分 辨 率 (通常 是 10 ms) e 


当 发 生 错 误 时 ，po11 函 数 的 返回 值 为 -1， 若 定时 器 到 时 之 前 没有 
任何 描述 符 就 绪 ， 则 返回 0， 否 则 返回 就 绪 描 述 符 的 个 数 ， 即 
revents 成 员 值 非 0 的 描述 符 个 数 。 
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如 采 我 们 不 再 关心 某 个 特定 描述 符 ， 那 么 可 以 把 与 它 对 应 的 
pollfd 结 构 的 fd 成 员 设 置 成 一 个 负 值 。poll 函 数 将 忽略 这 样 的 
pollfd 结 构 的 events 成 员 ， 返 回 时 将 它 的 revents 成 员 的 值 置 为 
0 o 


回顾 6.3 节 结尾 处 我 们 就 FD_SETSIZE 以 及 就 每 个 描述 符 集中 最 大 
描述 符 数 目 相 比 每 个 进程 中 最 大 描述 符 数 目 展开 的 讨论 。 A T polli 
不 再 有 那样 的 问题 了 ， 因 为 分 配 一 个 po11Lfd 结 构 的 数组 并 把 该 数组 
中 元 素 的 数目 通知 内 核 成 了 调用 者 的 责任 。 内 核 不 再 需要 知道 类 似 
fd_set 的 固定 大 小 的 数据 类 型 。 


POSIX 规 范 对 select 和 po1l11 都 有 需要 。 然 而 从 当今 的 可 移植 性 
角度 考虑 ， 支 持 select 的 系统 比 支持 po11 的 系统 要 多 。 男 外 POSIX 
还 定义 了 pselect， 它 是 能 够 处 理 信 号 阻塞 并 提供 了 更 高 时 间 分 辩 率 
的 Select 的 增强 版 本 。POSIX 没 有 为 p011 定 义 类 似 的 东西 。 


6.11 _TCP 回 射 服务 器 程序 〈 再 修订 版 ) 


我 们 现在 用 po11 替 代 select 重 写 6.8 节 的 TCP 回 射 服务 器 程序 。 
在 使 用 select 早 先 那 个 版 本 中 ， 我 们 必须 分 配 一 个 client 数 组 以 及 
一 个 名 为 rset 的 描述 符 集 (图 6-15) 。 改 用 po1L1 后 ， 我 们 只 需 分 配 
一 个 pol1fd 结 构 的 数组 来 维护 客户 信息 ， 而 不 必 分 配 男 外 一 个 数 
组 。 我 们 以 与 图 6-15 中 处 理 cLient 数 组 相同 的 方法 处 理 该 数组 的 fd 
成 员 : 值 -1 表 示 所 在 项 未 用 ， 否 则 即 为 描述 符 值 。 回 顾 前 一 他， 我 们 
o a a 
poll Ais ° 
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图 6-25 给 出 了 我 们 的 服务 器 程序 的 前 半 部 分 。 


tonelisernvitcpservpal01.c 


1 fincluce "wp. ti" 

2 tincluce zlimits.h- /* for OPEN MAX */ 

3 ant 

4 main(int argc, cher **argv) 

5 i 

5 int i, maxi, lis-enfd, cornEd, sockfi: 

7 iat nread3v; 

6 ssize_t n; 

à char buf [MAXLINF] ; 

10 sccklen t clilen; 

1i struct polltc client [OPEN MAX]: 

12 struct sockacdr in cli&sdir, servaddr; 

13 lisLeufd = SockeL[AF TNET, SOCK SIREAM, G1; 

14 bzero(&servacdr, sizeof iservaddr!); 

15 ocrvaddr.cin tomi.y - AP INET; 

16 servadd>. sin_acdr.s_addr - htonl [INADDR_ANY: ; 

17 servaddr .sin port = atans(SERV_FORT) ; 

18 Bindilisten=c, (SA +) aservaddr, sizeof (servedir)); 
19 Lietenilisterfad. LISTENQ!; 

20 elienz[0).fd = lictentd; 

21 clianz [)).events = PCLURDNORM; 

22 fcr (i=l; ie OPEM MAX; i++) 

23 clíent[i].fd = -1; /* -上 indicates available entry */ 
24 maxi = 0; /* max index into client|] array */ 


Icpcliserv/tepservpollül.c 


图 6-25 fERjpollERZAHJTCPHRAs Ss tee A BER 


分 配 po11fd 结 构 数组 


11 ”我们 声明 在 po11fd 结 构 数 组 中 存在 OPEN_MAX 个 元 素 。 确 
定 一 个 进程 任何 时 刻 能 够 打开 的 最 大 描述 符 数目 并 不 容易 ， 我 们 将 在 
图 13-4 中 再 次 遇 到 这 个 问题 。 方 法 之 一 是 以 参数 SC_O0PEN_MAX 调 用 
POSIX 的 sysconf 函 数 (如 APUE 第 42~44 页 9 所 述 ) ， 然 后 动态 分 配 
一 个 合适 大 小 的 数组 。 然 而 sysconf 的 可 能 返回 之 一 
是 “indeterminate” (不 确定 ) ， 意 味 着 我 们 仍然 不 得 不 猜测 一 个 值 。 这 
里 我 们 就 用 POSIX 的 OPEN_MAX 常 值 。 


初始 化 

20-24 我们 把 client 数 组 的 第 一 项 用 于 监听 套 接 字 ， 并 把 其 
余 各 项 的 描述 符 成 员 置 为 -1。 我 们 还 给 第 一 项 设置 POLLRDNORM 事 
件 ， 这 样 当 有 新 的 连接 准备 好 被 接受 时 po11 将 通知 我 们 。maxi 变 量 
含有 client 数 组 当前 正在 使 用 的 最 大 下 标 值 。 
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main 函 数 的 后 半 部 分 示 于 图 6-26 中 。 


tcpcliservitepservpolül.c 


25 for (5;)1 

26 "ready = Poll(clienr, maxi + 1, THMFTIM); 

27 if /client[0:.-events & POLLRDNORM) ( /* new client connection */ 
26 zlilen = siscof (cliaddr! ; 

29 connfd = Accept(listenfd, (SA *' &cliaddr, &clilen!; 
an for (i2 1: ie OFEN MAX; ive! 

31 if {client [i) .fa « 9) { 

32 client [i] .fd = conntd: /* save descriptor */ 
33 break; 

34 

35 if ii -- OPEN MAX) 

36 orr_quit ("too many clients"); 

37 client[i)].events = FOLLRDNORM: 

AR if fh > mei 

39 maxi = i: /* max index in client[] array */ 
10 it (--nready <= 0) 

41 continue: /* ro more readable descriptors */ 
42 } 

a3 for (i = 1; i <= maxi; i++) | /* check all clients for data */ 
14 if | íeockz3 = client[i].fd) < V) 

15 continue; 

46 if {client {i).revents & (POLLRONCRM | ?OLLERR)! | 

7 if | in = read{sockfd, buf, MAXLINZ)) < 0) ( 

4t it |errno -- BCCNNRZSET! [ 

#9 /*connection reset by client */ 

560 Close (scckfd) ; 

51 clisn-;i].fd = -1; 

52 } eise 

Ex err sys("rcad error"); 

54 } else i= (n == 0) [ 

55 {*eonnect ion close? cy client */ 

5€ Close \eocktd) ; 

57 clientlil.fd = -1; 

56 } else 

59 Writení(so-kfd, kuf, ni; 

eu if ;--nready <= 0) 

61 break; /* no more reacacle descriptors */ 
62 } 

62 ) 

: } 

65 ] 


Icecliservitepservpollólc 
图 6-26 ”使 用 po11 的 TCP 服 务 器 程序 的 后 半 部 分 
调用 po11， 检 查 新 的 连接 


26-42 ”我 们 调用 pol1l 以 等 每 新 的 连接 或 者 现 有 连 授 上 有 数据 可 
读 。 当 一 个 新 的 连接 被 接受 后 ， 我 们 在 cLient 数 组 中 得 找 第 一 个 描 
述 符 成 员 为 负 的 可 用 项 。 注 意 ， 我 们 从 下 标 1 开始 搜索 ， 因 为 


client[6] 固 定 用 于 监听 套 接 字 。 找 到 一 个 可 用 项 之 后 ， 我 们 把 新 连 
接 的 描述 符 保存 到 其 中 ， 并 设置 POLLRDNORM 事 件 。 
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检查 某 个 现 有 连接 上 的 数据 


43-63 ”我 们 检查 的 两 个 返回 事件 是 POLLRDNORM 和 POLLERR。 
其 中 我 们 并 没有 在 event 成 员 中 设置 第 二 个 事件 ， 因 为 它 在 条 件 成 立 
时 总 是 返回 。 我 们 检查 POLLERR 的 原因 在 于 有些 实现 在 一 个 连接 上 
接收 到 RST 时 返回 的 是 POLLERR 事 件 ， 而 其 他 实现 返回 的 只 是 
POLLRDNORM 事 件 。 不 论 哪 种 情形 ， 我 们 都 调用 read， 当 有 错误 发 生 
时 ，read 将 返回 这 个 错误 。 当 一 个 现 有 连接 由 它 的 客户 终止 时 ， 我 们 
就 把 它 的 fd 成 员 置 为 -1 © 


6.12 小结 
Unix 提 供 了 五 种 不 同 的 VO 模型 : 


阻塞 式 VO 模 型 ; 

非 阻 塞 式 IO 模型 ; 
IO 复 用 模型 ; 

言 号 驱动 式 VO 模 型 
异步 IO 模型 。 


于 认为 阻塞 式 1O 模 型 ， 它 也 是 最 单 用 的 MO 模型 。 在 以 后 章 季 
中 ， 我 们 将 讨论 非 阻塞 式 MO 模 型 和 信和 号 驱动 式 HO 模 型 ， 而 本 章 讨 论 
的 是 1/O 复 用 模型 。 真 正 的 异步 1/O 模 型 是 由 POSIX 规 范 定义 的 ， 不 过 
很 少 有 它 的 实现 存在 。 


1/O 复 用 模型 最 常用 的 画 数 是 select。 我 们 告知 该 函数 (就 读 、 
写 和 异常 条 件 ) 所 关心 的 描述 符 、 最 长 等 待 时 间 以 及 最 大 描述 符号 
(加 1) 。 大 多 数 select 调 用 指定 的 是 可 读 条 件 ， 而 对 于 套 接 字 描 述 
符 ， 唯 一 的 异常 条 件 是 这 外 数据 的 到 达 〈 第 24 章 ) 。 既 然 select 可 
以 提供 函数 阻塞 时 长 的 一 个 限制 ， 我 们 将 在 图 14-3 中 使 用 该 特性 对 输 
入 操作 设置 一 个 时 间 限 制 。 


我 们 以 批量 方式 运行 用 select 编 写 的 回 射 客户 程序 ， 发 现 即 使 
已 经 遇 到 了 用 户 输入 的 结尾 ， 仍 可 能 有 数据 处 于 去 往 或 来 目 服务 需 的 
管道 中 。 处 理 这 种 情形 要 求 使 用 shutdown 函 数 ， 这 使 得 我 们 能 够 用 
上 TCP 的 半天 闭 特性 。 


混合 使 用 stdio 绥 冲 机 制 (我 们 自己 的 readline 绥 冲 机 制 也 不 例 
Sh) 和 select 的 危险 促成 我 们 提供 针对 缓冲 区 而 不 是 文本 行 操作 的 
回 射 客户 程序 和 服务 硕 程 序 的 正确 版 本 。 


POSIX 定 义 的 pselect 卫 数 把 时 间 精 度 从 微 秒 级 增加 到 纳 秒 级 ， 
并 采用 一 个 指向 信号 集 的 指针 作为 它 的 一 个 新 参数 。 当 有 信号 需要 捕 
I E 我 们 将 在 20.5 节 进一步 讨论 
竞争 条 件 。 
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出 目 System V 的 po11 函 数 提 供 类 似 于 select 的 功能 ， 不 过 能 够 
为 流 设 备 提供 额外 信息 。POSIX 对 select 和 pol1 都 有 需要 ， 不 过 前 
者 使 用 得 更 为 频繁 。 


习题 


6.1 我们 说 过 一 个 描述 符 集 可 以 用 C 语 言 中 的 赋值 语句 赋 给 男 一 
描述 符 集 。 如 果 描 述 符 集 是 一 个 整 型 数组 ， 那 么 这 是 如 何 做 到 的 ? 
(提示 : 研究 一 下 你 自己 的 系统 中 的 <sys/select .h> 或 
«sys/types.h»3L X fft » ) 


62 ”在 6.3 节 讨论 Select 返回 “可 写 ? 条 件 时 ， 为 什么 必须 限定 套 
接 字 为 非 阻塞 才 可 以 说 一 次 写 操 作 将 返回 一 个 正 值 ? 


6.3 ”如 果 在 图 6-9 的 第 19 行 上 的 if 关 键 词 前 加 上 else 关 键 词 ， 将 
会 发 生 什么 ? 


6.4 ”在 图 6-21 的 例子 中 加 上 一 段 代码 ， 使 得 服务 器 能 够 使 用 内 核 
当前 允许 的 最 多 描述 符 数 。 (提示 : 研究 一 下 setrlimit 函 数 。) 


65 “让 我 们 看 看 当 shutdown 的 第 二 个 参数 为 SHUT_RD 时 将 发 生 
什么 。 以 图 5-4 中 的 TCP 客 户 程序 为 基础 并 做 如 下 改动 : 把 端口 号 从 
SERV_PORT 改 为 19， 也 就 是 chargen 服 务 器 (图 2-18) 所 监听 的 端 
口 ， 以 调用 pause 取 代 调 用 str_c11i。 指 定 本 地 局 域 网 上 运行 
chargen 服 务 器 的 某 个 主机 的 IP 地 址 来 运行 这 个 客户 程序 。 以 诸如 
tcpdump (C.5 节 ) 这 类 工具 观察 分 组 ， 看 到 发 生 了 什么 ? 


66 ”为 什么 应 用 程序 会 以 参数 SHUT_RDWR 来 调用 shutdown， 而 
不 是 仅仅 调用 close? 


; 67 ”图 6-22 中 当 客 户 发 送 一 个 RST 来 终止 连接 时 ， 将 会 发 生 什 
A? 


68 重 写 图 6-25 中 的 代码 ， 调 用 sysconf 来 确定 描述 符 的 最 大 数 
目 ， 并 相应 地 分 配 cLient 数 组 。 
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@OFD_SETSIZE 和 常 值 的 声明 一 直 是 在 头 文件 <sys/types ,h> 中 

(4.4BSD 和 4.4BSD-Lite2) ， 不 过 更 新 的 源 目 BSD 的 内 核 和 源 目 SVR4 
的 内 核 把 它 改 放 在 头 文件 <sys/select.h> 中 。 值 得 注意 的 是 ， 有 些 
应 用 程序 (典型 例子 是 需要 复 选 大 量 描述 符 的 事件 驱动 型 服务 器 程 
序 ， 所 需 描 述 符 量 超过 1024 个 ) 开始 改 用 poll1 代 苦 select， 这 样 可 
以 避免 描述 符 有 限 的 问题 。 还 要 注意 的 是 ，select 的 典型 实现 在 描 
述 符 数 增 大 时 可 能 存在 扩展 性 问题 。 


@ 新 作者 从 6.7 节 开始 关于 回 射 服务 的 讨论 实际 上 已 经 放弃 第 2 版 面 问 
文本 行 的 一 贯 做 法 ， 这 是 符合 RFC 862 的 。 尽 管 程序 是 正确 的 ， 然 而 
在 解释 程序 时 他 们 有 时 候 却 往往 直接 照抄 Stevens 先 生 的 说 法 。 以 上 这 
段 文字 就 是 直接 照抄 的 ， 只 是 在 第 一 次 出 现 read 一 词 的 地 方 ， 把 
Stevens 完 生 使 用 的 readline 改 成 了 read。 第 2 版 中 对 应 的 本 服务 器 
程序 是 面向 文本 行 的 ， 调 用 的 是 readline 而 不 是 read， 上 一 段 文字 
中 出 现 的 第 二 个 read 指 的 是 readline 内 部 的 read 调 用 (readline 
总 是 要 读 到 换行 符 或 EOF 才 返回 ) 。 对 于 不 再 面向 文本 行 的 回 射 服务 
来 说 ，Stevens 先 生 讲述 的 由 于 等 答 恋 入 换行 符 或 EOF 而 引起 的 拒绝 服 
务 攻击 已 不 复 存在 。 接 下 去 的 文字 仍然 需要 按照 第 2 版 中 对 应 的 服务 器 
程序 来 理解 。 一 一 译 者 注 


四 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 41 页 ， 第 
2 版 中 文 版 为 第 32~33 页 。 ”编者 注 


第 7 章 ” 套 接 字 选项 
7.1 概述 


有 很 多 方法 来 获取 和 设置 影响 套 接 字 的 选项 ; 


e getsockopt#ilsetsockopt Nz; 
。 fontlAA; 
e ioctlHR ° 


本 章 从 介绍 getsockopt 和 setsockopt 函 数 开 始 ， 接 着 给 出 一 
个 输出 所 有 选项 默认 值 的 例子 ， 然 后 详细 介绍 所 有 套 接 字 选 项 。 我 们 
按 以 下 分 类 进行 详细 介绍 : 通用 、IPv4、IPv6、TCP 和 SCTP。 在 第 一 
次 阅读 本 章 时 ， 这 些 细节 可 以 跳 过 ， 当 需要 时 再 回来 看 个 别 章节 。 个 
别 选 项 在 后 续 章 节 中 还 有 更 为 详细 的 讨论 ， 壁 如 IPv4 和 IPv6 多 播 选 项 
在 21.6 节 我 们 讲解 多 播 时 还 会 讨论 到 。 


我 们 还 介绍 fcnt1 函 数 ， 因 为 它 是 把 套 接 字 设置 为 非 阻 塞 式 IO 型 
或 信号 驱动 式 JO 型 以 及 设置 套 接 字 属 主 的 POSIX 的 方法 。 我 们 把 
ioct1 函 数 的 讨论 留 到 第 17 章 e 
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7.2 getsockopt#isetsockopt HA 
这 两 个 画 数 仅 用 于 套 接 字 。 


#include <sys/socket.h> 


int getsockopt(int sockfd, int level, int optname, void *optval, 
socklen_t *optlen); 


int setsockopt(int sockfd, int level, int optname, const void 
*optval, 


socklen_t optlen); 


均 返 回 : ze BTM 


普 则 为 -1 


其 中 sockfd 必 须 指 向 一 个 打开 的 套 接 字 描 述 符 ，level (级 别 ) 指定 
系统 中 解释 选项 的 代码 或 为 通用 套 接 字 代码 ， 或 为 某 个 特定 于 协议 的 
代码 (例如 IPv4、IPv6、TCP 或 SCTP) ° 


optval 是 一 个 指向 某 个 变量 (*optval) 的 指针 ，setsockopt 从 
*optval 中 取得 选项 待 设置 的 新 值 ，getsockopt 则 把 已 获取 的 选项 当前 值 
存放 到 *optval 中 。*optval 的 大 小 由 最 后 一 个 参数 指定 ， 它 对 于 
setsockopt 是 一 个 值 参数 ， 对 于 getsockopt 是 一 个 值 一 结果 参 
数 。 


图 7-1 和 图 7-2 汇 总 了 可 由 getsockopt 获 取 或 由 setsockopt 设 
置 的 选项 。 其 中 的 “数据 类 型 ? 列 给 出 了 指针 optval 必 须 指向 的 每 个 选项 
的 数据 类 型 。 我 们 用 后 跟 一 对 花 括 号 的 记 法 来 表示 一 个 结构 ， 如 
lingerf{} 就 表示 struct linger e 
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Al7-1 ， 套 接 字 层 和 卫 层 的 套 接 字 选项 汇总 
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图 7-2 ”传输 层 的 套 接 字 选项 汇总 


套 接 字 选 项 粗 分 为 两 大 基本 类 型 : 一 是 启用 或 禁止 某 个 特性 的 二 
元 选项 〈 称 为 标志 选项 ) ， 二 是 取得 并 返回 我 们 可 以 设置 或 检查 的 特 
定 值 的 先 选项 ( 称 为 值 选项 ) 。 标 lh 
志 选 项 。 当 给 这 些 标志 选项 调用 getsockopt 函 数 时 ，*#*optval 是 一 
整数 。*optval 中 返回 的 值 为 0 表示 相应 选项 被 禁止 ， FOR EDS 
TIA e Re, setsockopt KA 9E— 1-17 7308 *optval (EKA 
用 选项 ， 一 个 为 0 的 *optval 值 来 禁止 选项 。 如 果 “ 标 志 ?” 列 不 含有 “… ” 
那么 相应 选项 用 于 在 用 户 进程 与 系统 之 间 传 递 所 指定 数据 类 型 的 值 。 


本 章 后 续 各 节 将 给 出 影响 套 接 字 的 各 个 选项 的 额外 细 市 。 


7.3 ”检查 选项 是 否 受 文 持 并 获取 默认 值 


现在 我 们 写 一 个 程序 来 检查 图 7-1 和 图 7-2 中 定义 的 大 多 数 选 项 是 
下 得 到 过 竺 ， 若 是 则 输出 它们 的 默认 值 。 图 .3 给 出 了 我 们 这 个 程序 的 
声明 。 


sockontichestopts.< 


1 Hinclude "unp.t" 

2 Hincluüde «net-ret/tcp.h» /* for TCP xxx defines */ 
3 unicn val [ 

4 int i val; 

5 Teng J ual; 

5 struct linger lirger val; 

7 struct timevel timeval val; 

3 ) val; 

$ static char "sock str flag!union val *, int); 
10 eta.ic char *sock str. int (union val ^, int]; 

11 static char *sock_str_linaer/union val *, int); 
12 sta.ic char ^sock str Limeval (union val *, int); 
13 struct sock opta ( 

14 const char *opt_str; 

15 int opt_ evel; 

is int opt name; 


17 char d (topt va^ str) dumion val *, int); 


18 ) sces_optc([] = { 


13 í "SC BROADCAST", SOL SOCKET, SO BROADCAST, sock str flag }, 
20 i "SC DEBUG", SOL SOCKBT, SC DEDUG, socx str flaa ]. 
31 i "gU JONIROUTE', SUL SOCKET, SC DONTROUTE, sock etr flag }, 
22 ; "SC ERROR", SOL SOCKET, SC ERRCR, sock str :rt }, 
23 i "EU KEEDALIVE*, E)L SOCKET, SC_KEEVALIVE, socx str flag ], 
24 | "SC LINGES", SOL SOCKET, SC LINGER, sock stringer 5, 
25 i "EC OOBINLINE', EOL SOCKET, EC OOBINLINE, 20c« ctr tlag }, 
25 i "SC _RCVBUF", SOL SOCKET, SC_RCVBUF, sock str rt }, 
27 i "SC 3NDMU?", SOL SOKET, SC SNDhUP, aoc str irt }, 
28 1 "SU EOVLOWAI", SUL SOCKET, SO ROUV_OWAT, sock etr irt }, 
23 i "SC SND'OWAT", SoL SOCKET, SC SND-OWAT. socx str :rt }, 
32 i "EC RCVTIMEO", EOL SOCKET, £C RCVTIMEO, Socx str timeval ), 
31 i "SC SNDTIMEO", SOL SOCKRT, SC_SNDTIMED, sock str timeval ), 
32 i "SC REUSEADOR', SL SOCKET, SC REUSEADOR, socx str flag }, 
33 Hifdef SO REUSEPCRT 
34 | "SC RRÉSEPORT', S^L SOCKRT, SC RFUSEPORT, socx« str flag }, 
3s Helse 
35 | "SC REUSEPORT', o, 0, NULL }, 
37 Hendit 
38 1 "SC TYPE", SOL SOCKET, SC TYP, sock str int }, 
33 i "SC JSELOOPBACK*, SOL SOCKET, SC USE-OOPBACK,  socx str flag }, 
42 i "Ir TOS", IPPROTC IP, IP TOS, sock str int }, 
41 QU TB FPES. TPPROTO IP, TF TTL, sock str :rt }, 
43 | "LEVE DUNTFRAG", IPPROTO IPV5,IPV6 DONIFRAG, sock_str_flag }, 
43 i "TEVS UNICAST HOPS",  7PPROTOÓ IPVS,IPVS UNICAST HOES,sock str int }, 
44 | "IFVS V6ONLY", IPPROTO_IPVS, [PV6_VGONLY, sock_str_flag }, 
45 i "TCR MAXS3G", IPPROTO TCP, TCP MAXSES, sock str int }, 
45 i “TCP_NODELAY", IPPROTC TCP, TCP_NCDELAY, socx str flag |, 
47 i "SCTP_AUTOCLOSE*, IPPROTO ECTZ,SCTP AUIOCLOSE, sock_str_irt }, 
48 i "SCTP MAXBÜRST", IPPROTO SCT?,8CTP MAXBIIRST, sock str oort }, 
43 { "SCTP_MAXSES", IEPROTC_SCTE SCTP_MAXSEG, soc« str -rt }, 
53 i "SCTP NODSLAY', IPPROTO SCTP, SCTP_NODELAY, sock str flag }, 
51 | NULL, 0, 0, NULL } 
sa) 

sackopvcheckoprs. c 


Al7-3 套 接 字 选项 检查 程序 的 声明 
声明 可 能 值 的 union 


3-8 对 于 getsockopt 的 每 个 可 能 的 返回 值 ， 我 们 的 union 类 
型 中 都 有 一 个 成 员 。 


定义 函数 原型 
9-12 ”我们 为 用 于 输出 给 定 套 接 字 选项 的 值 的 4 个 函数 定义 了 原 


型 。 
定义 结构 并 初始 化 数组 


13-52 我 们 的 sock_opts 结 构 包 含 了 给 每 个 套 接 字 选项 调用 
getsockopt 并 输出 其 当前 值 所 需要 的 所 有 信息 。 它 的 最 后 一 个 成 员 
opt_val_str 是 指 回 用 于 4 个 选项 值 输出 函数 中 的 某 一 个 的 指针 。 我 
E T 它 的 每 个 元 素 代 表 一 个 套 接 字 
PEII ° 
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并 非 所 有 实现 都 支持 所 有 的 套 接 字 选 项 。 确 定 某 个 给 定 选 项 是 否 
得 到 支持 的 方法 是 用 语句 #ifdef 或 #if defined, Anm 
SO_REUSEPORT 选 项 所 示 。 为 求 完整 的 话 ， 本 数组 中 每 个 元 素 都 应 类 
似 SO_REUSEPORT 所 示 编 写 ， 不 过 我 们 省 略 了 这 些 ， 因 为 一 大 堆 
#ifdef 语 句 仅 仅 加 长 了 代码 ， 对 于 我 们 的 讨论 没有 什么 用 处 。 
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图 7-4 给 出 了 我 们 的 main 函 数 。 


socnapy checkops.c 


53 int 

64 nainiin- argo, char **argv) 

55 | 

56 int fd; 

ET sccklen t. len: 

LI sore. soek cpts*ptr; 

29 fcr iptr = scck cpts; ptr-»opt str f= NULL; ptr-+) í 
£0 printt(*&is: *, ptr-sont_stri; 

é1 i= (ptr-»opt val str == MULi) 

62 printt (* (undetines) \n") ; 

£3 else [ 

få switch(p-r-»apt level) { 

ES case SCL SOCKET: 

56 Cate IEPHOIU IP: 

E7 case IPPROTO_TCP: 

E8 fd = SockeLiAF_INET, SOCK STREAM, 1); 
ga breax; 

20 fifdez IPve 

71 case IEPROTO IIW6: 

72 fd = Socket |AP_INETS, SCCK STREAM, 0); 
73 break; 

74 #andif 

75 @ifde= IPPRITS_SCIP 

76 case ITEPROTO SCTP: 

77 fd = Socket |AF_INET, SOCK SZQPACKET, IEPROTO SCTP). 
78 breas; 

79 endif 

FO default: 

81 err quit("Can't creata Ed for level &dj4n", ptr-»opt level); 
B2 ) 

B3 len s s_zeol (vali; 

B4 i= [getsocxopt(fd, ptr-»o»t level, ptr-»cp- name, 
B5 &val, Slen) == -1) { 

EG err reti"getaockopt error’); 

E? ) else : 

FR printf ("default = $3\n", (*prr->opr_val_str) (aval, len)); 
EY } 

S closeiEdi,; 

$1 } 

$2 } 

53 exit ig); 

$4 | 


遍历 所 有 选项 


59~63 
元 素 的 opt_v 
(我 们 的 例子 
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sockopycheckcpls.c 


图 7-4 ”检查 所 有 套 接 字 选 项 的 main 函 数 


我 们 遍历 sock_opts[] 数 组 中 的 所 有 元 素 。 如 果菜 个 
al_str 指 针 为 空 ， 那 么 该 实现 没有 定义 相应 的 选项 
中 SO_REUSEPORT 选 项 有 可 能 就 是 这 样 ) 。 


创建 套 接 字 


63-82 ”我 们 创建 一 个 用 于 测试 选项 的 套 接 字 。 测 试 套 接 字 层 、 
TCP 层 和 IPv4 层 套 接 字 选项 所 用 的 是 一 个 IPv4 的 TCP 均 接 字 ， 测 试 IPv6 
层 套 接 字 选项 所 用 的 是 一 个 IPv6 的 TCP 套 接 字 ， 测 试 SCTP 层 套 接 字 选 
项 所 用 的 是 一 个 IPv4 的 SCTP 套 接 字 。 


调用 getsockopt 
83-87 我 们 调用 getsockopt， 不 过 在 返回 错误 时 并 不 终止 。 


许多 实现 会 定义 一 些 尚 未 提供 支持 的 套 接 字 选 项 的 名 字 。 这 些 不 受 文 
持 的 选项 应 该 引发 一 个 ENOPROTOOPT 错 误 。 


输出 选项 的 默认 值 
88-89 如 果 getsockopt 返 回 成 功 ， 那 么 我 们 调用 相应 的 选项 
值 输出 函数 将 选项 值 转换 为 一 个 字符 串 并 输出 。 


在 图 7-3 中 我 们 给 出 了 4 个 函数 原型 ， 每 个 类 型 的 选项 值 一 个 。 
7-5 给 出 了 这 4 个 函数 中 的 一 个 即 sock_str_flag， 它 输出 标志 类 型 
选项 的 值 。 其 他 3 个 函数 与 之 类 似 。 


sockopi/checkopis.c 


25 static char szrrea 120]; 


96 static charr 
27 Sock ctr tlag(union val “ptr, int len) 


$8 [ 

og t7 (lern te sizeof (int)! 

100 snorintf (strres, sizecf(scrres), "size (%d) not sizeof ‘int)'", leni; 
101 else 

102 snprintf(strres, sizecfí(s-cr-es), 

103 "ts", iptr-»i val == 6) ? "off* : ton"); 

104 returní(strres); 

165 | 


sockopi/checkopis.c 


图 7-5 sock_str_ flag 函 数 : 将 标志 选项 转换 为 字符 串 


99-104 回顾 getsockopt 的 最 后 一 个 参数 ， 它 是 值 一 结果 人 参 
数 。 我 们 所 做 的 第 一 项 检查 就 是 getsockopt 返 回 值 的 大 小 是 否 为 期 
望 的 大 小 。 本 画 数 返回 的 字符 串 或 为 off， 或 为 on， 取 决 于 标志 选项 
的 值 是 0 还 是 非 0。 
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在 安装 了 KAME SCTP 补 丁 的 FreeBSD 4.8 上 运行 该 程序 得 到 如 下 
输出 : 


freebsd % checkopts 

SO_BROADCAST: default = off 

SO DEBUG: default = off 

SO_DONTROUTE: default = off 

SO ERROR: default = 0 

SO_KEEPALIVE: default = off 

SO_LINGER: default = l_onoff = 0, 1_linger = 0 
SO_OOBINLINE: default = off 

SO_RCVBUF: default = 
SO_SNDBUF: default = 
SO_RCVLOWAT: default 
SO_SNDLOWAT: default 
SO_RCVTIMEO: default , © usec 
SO_SNDTIMEO: default © sec, © usec 
SO_REUSEADDR: default off 
SO_REUSEPORT: default off 

SO TYPE: default = 1 

SO USELOOPBACK: default = off 
IP_TOS: default = 0 

IP_TTL: default = 64 

IPV6_DONTFRAG: default = off 
IPV6_UNICAST_HOPS: default = -1 
IPV6_V6ONLY: default = off 
TCP_MAXSEG: default = 512 
TCP_NODELAY: default = off 
SCTP_AUTOCLOSE: default = 0 
SCTP_MAXBURST: default = 4 
SCTP_MAXSEG: default = 1408 
SCTP_NODELAY: default = off 


SO_TYPE 选 项 的 返回 值 1 对 应 于 该 实现 的 SOCK_STREAM ° 
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对 于 某 些 确 接 字 选项 ， 针 对 和 套 接 字 的 状态 ， 什 么 时 候 设 置 或 获取 
选项 有 时 序 上 的 考虑 。 我 们 对 受 影 响 的 选项 论 及 这 一 点 。 


下 面 的 套 接 字 选 项 是 由 TCP 已 连接 套 接 字 从 监听 套 接 字 继 承 来 的 
(CTCPv2 第 462~-463 页 ) : SO DEBUG ` SO DONTROUTE ^ 

SO KEEPALIVE ` SO LINGER ` SO. OOBINLINE ` SO RCVBUF ` 
SO RCVLOWAT ` SO. SNDBUF ` SO SNDLOWAT ` TCP. MAXSEGZI 
TCP_NODELAY。 这 对 TCP 是 很 重要 的 ， 因 为 accept 一 直 要 到 TCP 层 
完成 三 路 握手 后 才 会 给 服务 絮 返 回 已 连接 套 接 字 。 如 果 想 在 三 路 握手 
完成 时 确保 这 些 套 接 字 选 项 中 的 某 一 个 是 给 已 连接 套 接 字 设 置 的 ， 那 
么 我 们 必须 先 给 监听 套 接 字 设 置 该 选项 。 


7.5 ”通用 套 接 字 选 项 


我 们 从 通用 套 接 字 选项 开始 讨论 。 这 些 选 项 是 协议 无 关 的 (也 就 
是 说 ， 它 们 由 内 核 中 的 协议 无 关 代码 处 理 ， 而 不 是 由 诸如 IPv4 之 类 特 
殊 的 协议 模块 处 理 ) ， 不 过 其 中 有 些 选 项 只 能 应 用 到 某 些 特定 类 型 的 
套 接 字 中 。 举 例 来 说 ， 尽 管 我 们 称 SO_BROADCAST 套 接 字 选项 是 “ 通 
用 ”的 ， 它 却 只 能 应 用 于 数据 报 套 接 字 。 
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7.5.1 SO BROADCAST## JE 


本 选项 开启 或 禁止 进程 发 送 广播 消息 的 能 力 。 只 有 数据 报 套 接 字 
支持 广播 ， 并 且 还 必须 是 在 支持 广播 消息 的 网 络 上 (例如 以 太 网 、 令 
牌 环 网 等 ) 。 我 们 不 可 能 在 点 对 点 链 路 上 进行 广播 ， 也 不 可 能 在 基于 
连接 的 传输 协议 〈 例 如 TCP 和 SCTP) 之 上 进行 广播 。 我 们 将 在 第 20 章 
中 更 为 详细 地 讨论 广播 。 


由 于 应 用 进程 在 发 送 广播 数据 报 之 前 必须 设置 本 套 接 字 选项 ， 因 
此 它 能 够 有 效 地 防止 一 个 进程 在 其 应 用 程序 根本 没有 设计 成 可 广播 时 
就 发 送 广播 数据 报 。 举 例 来 说 ， 一 个 UDP 应 用 程序 可 能 以 命令 行 参数 
的 形式 取得 目的 IP 地 址 ， 不 过 它 并 不 期 望 用 户 键入 一 个 广播 地 址 。 处 
理 方法 并 非 让 应 用 进程 来 确定 一 个 给 定 地 址 是 否 为 广播 地 址 ， 而 是 在 
内 核 中 进行 测试 : 如 果 该 目的 地 址 是 一 个 广播 地 址 且 本 套 接 字 选项 没 
有 设置 ， 那 么 返回 EACCES 错 误 (TCPv2 第 233 页 ) ° 


7.5.2 ”SO_DEBUG 套 接 字 选 项 


本 选项 仅 由 TCP 支 持 。 当 给 一 个 TCP 套 接 字 开 启 本 选项 上 时， 内核 
将 为 TCP 在 该 套 接 字 发 送 和 接收 的 所 有 分 组 保留 详细 跟踪 信息 。 这 些 
信息 保存 在 内 核 的 某 个 环形 缓冲 区 中 ， 并 可 使 用 trpt 程 序 进 行 检 查 。 


7.5.3 SO DONTROUTE## EM 


本 选项 规定 外 出 的 分 组 将 绕 过 底层 协议 的 正常 路 由 机 制 。 举 例 来 
说 ， 在 IPv4 情 况 下 外 出 分 组 将 被 定 同 到 适当 的 本 地 接口 ， 也 就 是 由 其 
目的 地 址 的 网 络 和 子 网 部 分 确定 的 本 地 接口 。 如 果 这 样 的 本 地 接口 无 
法 由 目的 地 址 确定 ( 壁 如 说 目的 地 主机 不 在 一 个 点 对 点 链 路 的 男 一 
端 ， 也 不 在 一 个 共享 的 网 络 上 ) ， 那 么 返回 ENETUNREACH 错 误 。 


给 函数 send、sendto 或 sendmsg 使 用 MSG_DONTROUTE 标 志 也 
能 在 个 别 的 数据 报 上 取得 与 本 选项 相同 的 效 末 。 


路 由 守护 进程 (routed 和 gated) 经 常 使 用 本 选项 来 绕 过 路 由 
X (路 由 表 不 正确 的 情况 下 ) ， 以 强制 将 分 组 从 特定 接口 送出 。 


7.5.4 SO ERROR 套 接 字 选项 


当 一 个 套 接 字 上 发 生 错 误 时 ， 产 目 Berkeley 的 内 核 中 的 协议 模块 
将 该 套 授 字 的 名 为 So_error 的 变量 设 为 标准 的 Unix Exxx 值 中 的 一 
个 ， 我 们 称 它 为 该 套 接 字 的 待 处 理 错 误 (pending error) 。 内 核能 够 以 
下 面 两 种 方式 之 一 立即 通知 进程 这 个 错误 。 

(1) 如 果 进 程 阻塞 在 对 该 套 接 字 的 Select 调用 上 (6.315) , ABA 
无 论 是 检查 可 读 条 件 还 是 可 写 条 件 ，select 均 返回 并 设置 其 中 一 个 
或 所 有 两 个 条 件 。 
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(2) 如 果 进 程 使 用 信号 驱动 式 W/O 模 型 (32535) ， 那 就 给 进程 或 
进程 组 产生 一 个 SIGIO 信 号 。 


进程 然后 可 以 通过 访问 SO_ERROR 套 接 字 选项 获取 so_error 的 
值 。 由 getsockopt 返 回 的 整数 值 就 是 该 套 接 字 的 待 处 理 错误 。 
so_error 随 后 由 内 核 复位 为 0 (TCPv2 第 547 页 ) ° 


当 进 程 调用 read 且 没有 数据 返回 时 ， 如 果 so_error 为 非 0 值 ， 
那么 read 返 回 -1 晶 errno 被 置 为 sSo_error 的 值 (TCPv2 第 516 页 ) ° 


so_error 随 后 被 复位 为 0。 如 果 该 套 接 字 上 有 数据 在 排队 等 待 读 取 ， 
那么 read 返 回 那 些 数据 而 不 是 返回 错误 条 件 。 如 果 在 进程 调用 write 
时 so_error 为 非 0 值 ， 那 么 write 返回 -1 且 errno 被 设 为 So_error 
的 值 (TCPv2 第 495 页 ) 。so_error 随 后 被 复位 为 0。 


TCPv2 第 495 页 所 示 代 码 中 有 一 个 缺陷 ， 那 儿 so_error 没 有 被 复 
位 为 0， 这 在 BSD/OS 的 版 本 中 已 经 修改 了 。 一 个 套 接 字 上 出 现 的 待 处 
理 错误 一 旦 返回 给 用 户 进 程 ， 它 的 So_error 就 得 复位 为 0。 


这 是 我 们 过 到 的 第 一 个 可 以 获取 但 不 能 设置 的 套 接 字 选项 。 


7.5.5 SO KEEPALIVE 套 接 字 选项 


给 一 个 TCP 套 接 字 设置 保持 存活 (keep-alive) 选项 后 ， 如 果 2 小 时 
内 在 该 套 接 字 的 任 一 方 同 上 都 没有 数据 交换 ，TCP 就 自动 给 对 端 发 送 
一 个 保持 存活 探测 分 节 (keep-alive probe) 。 这 是 一 个 对 端 必须 响应 
的 TCP 分 节 ， 它 会 导致 以 下 三 种 情况 之 一 。 


(1) 对 端 以 期 望 的 ACK 啊 应 。 应 用 进程 得 不 到 通知 (因为 一 切 正 
) 。 在 义 经 过 仍 无 动静 的 2 小 时 后 ，TCP 将 发 出 男 一 个 探测 分 节 。 


(2) 对 端 以 RST 响 应 ， 它 告知 本 端 TCP: in Aa AO Bos 
动 。 该 套 接 字 的 竺 处 理 错 误 被 置 为 ECONNRESET， 套 接 字 本 身 则 被 关 
闭 。 

(3) 对 端 对 保持 存活 探测 分 节 没 有 任何 啊 应 。 源 自 Berkeley 的 TCP 


将 另外 发 送 8 个 探测 分 和 ， 两 两 相隔 75 秒 ， 试图 得 到 一 个 啊 应 。TCP 在 
发 出 第 一 个 探测 分 节 后 11 分 15 秒 内 车 没有 得 到 任何 响应 则 放弃 。 


HP-UX 以 处 理 数 据 的 方式 来 处 理 保持 存活 探测 分 节 ， 即 在 重 传 超 
时 之 后 发 送 第 二 个 探测 分 万， 并 把 超时 值 加 倍 ， 这 样 一 直 重 传 到 预 配 
置 最 大 间隔 时 间 为 止 ， 而 最 大 间隔 时 间 的 默认 值 为 10 分 钟 。 
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如 打 根 本 没有 对 TCP 的 探测 分 世 的 啊 应 ， 该 懈 接 字 的 竺 处 理 错误 
就 被 置 为 ETIMEOUT， 套 接 字 本 喘 则 被 和 关闭。 然而 如 果 该 套 接 字 收 到 


di 


一 个 ICMP 错 误 作 为 某 个 探测 分 节 的 响应 ， 那 就 返回 相应 的 错误 〈 图 A- 
15 和 图 A-16) ， 套 接 字 本 身 也 被 关闭 。 这 种 情形 下 一 个 常见 的 ICMP 错 
误 是 “host unreachable” (主机 不 可 达 ) ， 说 明 对 端 主机 可 能 并 没有 月 
滥 ， 只 是 不 可 达 ， 这 种 情况 下 待 处 理 错误 被 置 为 EHOSTUNREACH。 发 
生 这 种 情况 的 原因 或 者 是 发 生 网 络 故障 ， 或 者 是 对 端 主机 已 经 骨 演 ， 

而 最 后 一 跳 的 路 由 器 也 已 经 检测 到 它 的 裔 筷 。 


TCPv1 第 23 章 和 TCPv2 第 828~831 页 均 有 对 保持 存活 选项 的 详细 
阐述 。 


对 于 本 选项 的 一 个 最 第 见 的 问题 无 疑 是 时 间 参 数 是 否 可 改 (通常 
是 想 把 2 小 时 的 无 活动 周期 改 为 短 些 的 值 ) 。TCPv1 的 附录 E 讨 论 了 如 
何 给 各 种 内 核 修改 这 些 定时 参数 ， 不 过 必须 注意 大 多 数 内 核 是 基于 整 
个 内 核 维 护 这 些 时 间 参 数 的 ， 而 不 是 基于 每 个 套 接 字 维护 的 ， 因 此 如 
果 把 无 活动 周期 从 2 小 时 改 为 ( 壁 如 说 ) 15 分 钟 ， 那 将 影响 到 该 主机 上 
AE Ta ^ 然而 这 些 问题 通常 是 由 对 本 选项 功用 的 
VATES ENT ° 


ANE TA Fd ee E USE Eo EA SU RIXA ( 壁 如 拨号 
调制 解 调 器 连接 掉 线 ， 电 源 发 生 故 障 ， 等 等 o AR ag ERB AAT, 
它 的 TCP 将 跨 连 接 发 送 一 个 FIN， 这 可 以 通过 调用 select 很 容易 地 检 
测 到 。 (这 就 是 我 们 在 6.4 节 中 使 用 select 的 原因 。) 同时 也 要 认识 
到 ， 即 使 对 任何 保持 存活 探测 分 节 均 无 响应 (第 三 种 情况 ) ， 我 们 也 
不 能 肯定 对 端 主机 已 经 朋 尝 ， 因 而 TCP 可 能 会 终止 一 个 有 效 连 接 。 某 
个 中 间 路 由 器 和 朋 溃 15 分 钟 是 有 可 能 的 ， 而 这 段 时 间 正 好 与 主机 的 11 分 
15 秒 的 保持 存活 探测 周期 完全 重 琶 。 事 实 上 本 功能 称 为 “切断 ” (make- 
dead) 而 不 是 “保持 存活 ”也 许 更 合适 些 ， 因 为 它 可 能 终止 存活 的 连 


TE o 


本 选项 一 般 由 服务 器 使 用 ， 不 过 客户 也 可 以 使 用 。 服 务 器 使 用 本 
选项 是 因为 它们 花 大 部 分 时 间 阻 塞 在 等 待 穿越 TCP 连 接 的 输入 上 ， 也 
就 是 说 在 等 待 客户 的 请 求 。 然 而 如 果 客 户主 机 连接 掉 线 、 电 源 掉 电 或 
系统 裔 泪 ， 服 务 器 进程 将 永远 不 会 知道 ， 并 将 继续 等 待 永远 不 会 到 达 
的 输入 。 我 们 称 这 种 情况 为 半 开 连接 (half-open connection) 。 保 持 存 
活 选 项 将 检测 出 这 些 半 开 连 接 并 终止 它们 。 


有 些 服务 器 (特别 是 FTP 服 务 器 提供 一 个 分 钟 量 级 的 应 用 层 超 
时 。 这 是 由 应 用 进程 本 号 完 成 的 ， 一 般 在 读 下 一 个 客户 命令 的 read 调 


FARA o ANEN ARBITER ^ RS ces BS IA 
TRI PITRE IDOE ATA, 因为 如 采 应 用 系统 目 己 实 现 超 时 ， 应 用 进 
程 束 具备 完全 的 控制 能 


SCTP 有 与 TCP 的 保持 存活 机 制 类 似 的 心 搏 (heartbeat) 机 制 。 心 
搏 机 制 通 过 本 章 稍 后 讨论 的 SCTP_SET_PEER_ADDR_PARAMS 套 接 字 
选项 的 参数 而 不 是 本 套 接 字 选 项 控制 。 对 SCTP 套 接 字 进行 本 套 接 字 选 
项 的 设置 将 被 忽略 ， 它 不 影响 SCTP 的 心 搏 机 制 。 
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图 7-6 对 一 个 TCP 连 接 的 另 一 端 发 生 某 些 事件 时 我 们 可 以 采 
种 检测 方法 作 了 汇总 。 当 我 们 说 “使 用 select 判断 可 读 条 件 ? 时 ， 其 
AVIA select ROMER EA ATE © 


博 形 xj V3 FON Nr oL i uio Ed ELAS HT tas 
A Xi TCP JE XPARTCPALE — EIN, Ri (tU 4-35 TCPA EIN , HABE ASTCPTS GE, DAR 
Peps Rd | select Wh up ATE VETER LR. | REAR REE | te EPIO Eae YE YO 
A. Wb ART CPE 9 4R—4- Y. | STIMEDCUT EHZSTUNREACH 


XPASTCPXLULRSTB S, LR GT 23 
TCP I FURST AAF id PL iA E 3 
Ac T SR RISE 7 RR AGNI 


45 ^sIGPTPElL E 


AOWTCPIE | XDATCPEREOE EIN. fenum | RPFP ERRER SHE EBC ye 
raise | ETIN e Ln b id AOD) EOF 访 入 


EKT, HTCP RA FIN. iii fh (EE LRM, H EELAM. XE 
ERRA | selects THAME WREATH | 送 9 个 保持 专 活 探测 分 他 ， | VME REM 
LEM BAER mmu | Mur £u Ae X 

被 设 喷 为 BENEDOUT fva X; eeOSTUNREACH 

EHH, TCP RIS — FIN, RUE EY Go CX) 

[Fr EMGEIS | setecc 34M al ik TEC BEI UD 
ARR 


图 7-6 ”检测 各 种 TCP 条 件 的 方法 


7.5.6 SO LINGERE# km 


本 选项 指定 close 函 数 对 面 回 连 接 的 协议 〈 例 如 TCP 和 SCTP， 但 
2 是 UDP) 如 何 操作 。 黑 认 操 作 是 close 立 即 返 回 ， 但 是 如 果 有 数据 
留 在 套 接 字 发 送 绥 冲 区 中 ， 系 统 将 试 着 把 这 些 数据 发 送 给 对 端 。 


SO_LINGER 套 接 字 选项 使 得 我 们 可 以 改变 这 个 默认 设置 。 本 选项 
要 求 在 用 户 进程 与 内 核 间 传递 如 下 结构 ， 它 在 头 文件 
<sys/socket .h» 4E Y : 


struct linger { 
int 1 onoff; /* O=off, nonzero=on */ 
int 1l linger; /* linger time, POSIX specifies units as 


seconds */ 
/ 


对 setsockopt 的 调用 将 根据 其 中 两 个 结构 成 员 的 值 形成 下 列 3 种 


ISTE Z— ° 


(1) 如 果 1_onoff 为 0， 那 么 关闭 本 选项 。1_1inger 的 值 被 名 
略 ， 先 前 讨论 的 TCP 默 认 设 置 生 效 ， 即 close 立 即 返 回 。 
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(2) 如 果 1_onoff 为 韭 0 值 且 1_linger 为 0， 那 勾当 close 某 个 连 
接 时 TCP 将 中 止 该 连接 (TCPv2381019—-102070) 。 这 就 是 说 TCP 将 丢 
弃 保 留 在 套 接 字 发 送 缓冲 区 中 的 任何 数据 ， 并 发 送 一 个 RST 给 对 端 ， 
而 没有 通常 的 四 分 组 连接 终止 序列 (2.00) 。 我 们 将 在 图 16-21 中 给 
出 这 样 的 一 个 例子 。 这 么 一 来 避免 了 TCP 的 TIME_WAIT 状 态 ， 然 而 存 
在 以 下 可 能 性 : 在 2MSL 秒 内 创建 该 连接 的 另 一 个 化 身 ， 导 致 来 自 刚 
O Cx, 
H o 


这 种 情形 下 SCTP 也 通过 发 送 一 个 ABORT 块 给 对 端 而 中 止 性 地 关 
闭关 联 ( [Stewart and Xie 2001] 9.2 节 ) ° 


偶尔 张贴 在 USENET 上 的 消息 提倡 使 用 本 特性 ， 其 目的 是 为 了 避 
免 TIME_WAIT 状 态 ， 并 且 即 使 在 跟 某 个 服务 器 的 众所周知 端口 的 连接 
仍 在 使 用 的 情况 下 也 能 重启 其 监听 服务 器 。 这 么 做 万 万 不 可 ， 它 可 能 
导致 数据 被 破坏 ， 详 情 见 RFC 1337 [Braden] 。 作 为 替代 ， 总 是 在 服 
务 器 程序 中 调用 bind 前 使 用 SO_REUSEADDR 套 接 字 选项 ， 我 们 马上 
会 讲述 到 。TIME_WAIT 状 态 是 我 们 的 朋友 ， 它 是 有 助 于 我 们 的 〈 也 就 
是 说 ， 它 让 旧 的 重复 分 节 在 网 络 中 超时 消失 ) 。 不 要 试图 避免 这 个 状 


态 ， 而 是 应 该 弄 清楚 它 (2.77) 


个 别 环 境 下 使 用 本 特性 执行 中 止 性 的 关闭 是 合理 的 。 例 子 之 一 是 
因 试图 回 某 个 停 请 的 终端 端口 递送 数据 而 可 能 永远 消 留 在 
CLOSE _ WAIT 状态 的 一 个 RS-232 终 端 服务 器 ， 要 是 它 得 到 一 个 RST 以 
丢弃 待 处 理 的 数据 ， 它 会 适当 地 复位 那个 停滞 的 终端 端口 。 


(3) 如 果 1_onoff 为 韭 0 值 有 1_1linger 也 为 非 0 值 ， 那 勾当 套 接 字 
关闭 时 内 核 将 拖延 一 段 时 间 。 这 就 是 说 如 果 在 套 接 字 发 送 缓冲 区 中 仍 
残留 有 数据 ， 那 么 进程 将 被 投入 睡眠 ， 直 到 (a) 所 有 数据 都 已 发 送 完 
且 均 被 对 方 确 认 或 (b) 延 滞 时 间 到 。 如 果 套 接 字 被 设置 为 非 阻 塞 型 

(第 16 章 ) ， 那 么 它 将 不 等 待 close 完 成 ， 即 使 延 滞 时 间 为 非 0 也 是 如 
此 。 当 使 用 SO_LINGER 选 项 的 这 个 特性 时 ， 应 用 进程 检查 close 的 返 
回 值 是 非常 重要 的 ， 因 为 如 果 在 数据 发 送 完 并 被 确认 前 延 清 时 间 到 的 
话 ，close 将 返回 EWOULDBLOCK 错 误 ， 且 套 接 字 发 送 缓冲 区 中 的 任 

何 残 留 数据 都 被 丢弃 。 


203 

现在 我 们 需要 看 看 ， 对 于 已 讨论 的 各 种 情况 ， 套 接 字 上 的 close 
确切 来 说 是 什么 时 候 返 回 的 。 我 们 假设 客户 将 数据 写 到 套 接 字 上 ， 然 
后 调用 close。 图 7-7 给 出 了 默认 情况 。 


RA 服务 器 


write 


close 


closelMI'l 


rt rCPJIEBA s 


数据 和 FIN 的 确认， M 


应 用 进程 读 排 队 的 数据 利 IFIN 


c asa 
FIN 
”一 一 一 一 


—— 


— — BURNER 


图 7-7 close 的 默认 操作 :立即 返回 


我 们 假设 在 客户 数据 到 达 时 ， 服 务 絮 和 暂时 处 于 忙 状态 。 那 么 这 些 
数据 由 TCP 加 入 服务 占 的 到 接 字 接 收 组 促 区 中 。 类 似 地 ， 下 一 个 分 市 
即 客户 的 FIN 也 加 入 该 套 接 字 接收 缓冲 区 中 (不 论 实现 以 何 种 方法 记 


录 该 连 授 上 已 收 到 一 个 FIN 这 一 事件 ) e BRUTAL T EP close 

即 返 回 。 如 图 所 示 ， 客 户 的 close 可 能 在 服务 如 读 套 接 子 接收 缓 区 中 

的 剩余 数据 之 前 就 返回 。 对 于 服务 器 主机 来 说 ， 在 服务 器 应 用 进程 读 

N 而 且 客 户 应 用 进程 永远 不 会 
[BB o 


客户 可 以 设置 SO_LINGER 套 接 字 选项 ， 指 定 一 个 正 的 延 滞 时 间 。 
这 种 情况 下 客户 的 close 要 到 它 的 数据 和 FIN 已 被 服务 如 主机 的 TCP 确 
认 后 才 返 回 ， 如 匈 7-8 所 示 。 


客户 服务 器 


HY TCPHEEA Hct 


Jo M Jab PEE HY t JG FOPTIN 


close] 
FIN _———— close 


一 一 


一 -一 He ENA Hy 


一 一 


图 7-8 ”设置 SO_LINGER 套 接 字 选 项 目 1_1inger 为 正 值 时 的 close 
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然而 我 们 仍然 有 与 图 7-7 一 样 的 问题 ， 在 服务 占 应 用 进程 读 剩余 数 
据 之 前 ， 服 务 器 主机 可 能 月 演 ， 并 且 客 户 应 用 进程 永远 不 会 知道 。 更 
糟糕 的 是 ， 图 7-9 展 示 了 当 给 SO_LINGER 选 项 设置 偏 低 的 延 滞 时 间 值 
时 可 能 发 生 的 现象 。 


clovel&||-1 . 2rrno 
EE CyEWOULCROOTE -只 一 一 一 


ee ai oa 


Al7-9 iX ESO LINGERETJEEXSJIHl linger Afi) iE (BAY close 


这 里 有 一 个 基本 原则 : A BSO LINGERE# SIAR, closely 
成 功 返 回 只 是 告诉 我 们 先前 发 送 的 数据 (和 FIN) 已 由 对 端 TCP 人 确认 ， 
而 不 能 告诉 我 们 对 端 应 用 进程 是 否 已 读 取 数据 。 如 果 不 设置 该 套 接 字 
选项 ， 那 么 我 们 连 对 端 TCP 是 否 确 认 了 数据 都 不 知道 。 


让 客户 知道 服务 侠 已 读 取 其 数据 的 一 个 方法 是 改 为 调用 
shutdown (并 设置 它 的 第 二 个 参数 为 SHUT_WR) 而 不 是 调用 
close， 并 等 待 对 端 close 连 接 的 当地 端 (服务器 端 ) ， 如 图 7-10 所 
ZR œ 


=A Ae 35 


write 


: | 
snutdown-—_  — 


| IN Hr TCPHEDA ZIHR 
readh 4# | DAS NT 


eN — 


FIN s —jcloss 


— — 


readi&|jo[ M y 
一 一 一 一 数据 和 PIN 的 确认 


— 


图 7-10 用 shutdown 来 获知 对 方 已 接收 数据 


比较 本 图 与 图 7-7 及 图 7-8 我 们 看 到 ， 当 关闭 连接 的 本 地 端 (客户 
端 ) 时 ， 根 据 所 调用 的 函数 (closeskshutdown) 以 及 是 否 设置 了 


SO_LINGER 套 接 字 选项 ， 可 在 以 下 3 个 不 同 的 时 机 返回 。 

(1) close 立 即 返回 ， 根 本 不 等 得 (默认 状况 ， 图 7-7) 

(2) close 一 直 拖 延 到 接收 了 对 于 客户 端 FIN 的 ACK 才 返回 〈 图 7- 

(3) 后 跟 一 个 read 调 用 的 shutdown 一 直 等 到 接收 了 对 端的 FIN 才 
返回 (图 7-10) 。 
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获知 对 端 应 用 进程 已 读 取 我 们 的 数据 的 另外 一 个 方法 是 使 用 应 用 
级 确认 (application-level acknowledge， 人 简称 应 用 ACK (application 
ACK) ) 。 在 下 面 的 例子 中 ， 客 户 在 向 服务 器 发 送 数据 后 调用 read 来 
读 取 1 个 字 市 的 数据 : 


char ack; 


Write(sockfd, data, nbytes); /* data from client to server 
*/ 


n = Read(sockfd, &ack, 1); /* wait for application-level 
ACK */ 


ARF ae SOR ELI ACHE J AIL A ACK: 


nbytes = Read(sockfd, buff, sizeof(buff)); /* data from client 
*/ 


/* server verifies it received correct 


amount of data from the client */ 
Write(sockfd, "", 1); /* server's ACK back to client 
*/ 


SAP readk ET, Baile) MRR aes RE T RTT 
发 送 的 所 有 数据 。 (假设 服务 器 知道 客户 要 发 送 多 少数 据 ， 或 者 由 应 
用 程序 定义 了 某 个 记录 结束 标志 ， 不 过 这 儿 没 有 给 出 。) 本 例子 的 应 
用 级 ACK 是 值 为 0 的 1 个 字 方 ， 不 过 该 字 太 的 内 容 可 以 用 来 从 服务 右 癌 
客户 指示 其 他 的 条 件 。 图 7-11 展 示 了 可 能 的 分 组 交换 过 程 。 


=A 服务 器 
write 


veaa[T a L:rrc EE v 


ISHED agde. khai 
Typ au NIHACK? 
resadj&k["n1 


=| ; 
c12ge3lf4[u SS 
mem L1 MS HEGERCEUEEOF 
emai —— 71 
FIN ene | close 
-— — — HIN 


一 一 一 
一 -一 一 一 一 
一 一 一 一 


图 7-12 汇 总 了 对 shutdown 的 两 种 可 能 调用 和 对 close 的 三 种 可 
能 调用 ， 以 及 它们 对 TCP 套 接 字 的 影响 。 


uten, SHUT Rn EINMESUUDEUCIDNEDIXIRIIPEITNEETIISO 
Urb xh BUT Ma PERCHE EE TCP E Ces d fol 
字 发 送 强 冲 区 没有 任何 影响 


sautdown, EHUT WR fed LAGER RES, MERLE PR, PR RIE 
SEX PUPAE RE ARS E RE TCA RA Yn] ERFIN): 对 
在 接 字 接收 绥 冲 区 无 年 何 影 响 ， 


close, l onoff = 0 {EASES LAGE NEBR! RARE AR LEBER aPC fay A HERE 
(默认 情况， 到 对 疯 。 如 果 描 述 符 引用 计数 变 为 0， 在 发 送 完 发 半 缓 冲 区 中 的 数据 后 ， 强 以 正 
LICHE SS CURREN): SORE REUSE TX TPL ARE LF 


close, Lenoft = 1 | (AE? LANE A IEEE RR OK. UATE RENO: RSTI 
— EES | BORER MERI M CLOSED CRATTIME WAITIRAS), TERE XE 
px VEE Bb n E RE 5 


close, 1 onott = 1 FEDER PL ASME RE ROCKS SR Tope Qa S oC (p a A 
l_ linger i- € | spupgy. WEE 9] HEC 0: AERAR ERAH. RAUL 
WESTCPRES EEA (REFN) E RASE oe REZ Rs UR E 

连接 变 为 CLOSED 状 态 前 于洋 时 间 到 ， 那 么 close 返 回 zwourralocr 错 误 。 


图 7-12 ” shutdown 和 SO_LINGER 各 种 情况 的 总 结 


7.5.7 SO_00BINLINE 套 接 字 选项 


当 本 选项 开局 时 ， 市 外 数据 将 被 留 在 正常 的 输入 队列 中 〈 即 在 线 
留存 ) 。 这 种 情况 下 接收 函数 的 MSG_00B 标 志 不 能 用 来 读 带 外 数据 。 
我 们 将 在 第 24 革 中 详细 讨论 市 外 数据 。 


7.5.8 SO RCVBUF#ISO _SNDBUF 套 接 字 选项 


每 个 套 接 字 都 有 一 个 发 送 缓冲 区 和 一 个 接收 缓冲 区 。 我 们 在 图 2- 
15、 图 2-16 和 图 2-17 中 分 别 描述 了 TCP、UDP 和 SCTP 套 接 字 中 发 送 缓 
冲 区 的 操作 。 


接收 缓冲 区 被 TCP、UDP 和 SCTP 用 来 保存 接收 到 的 数据 ， 直 到 由 
应 用 进程 来 读 取 。 对 于 TCP 来 说 ， 套 接 字 接收 缓冲 区 中 可 用 空间 的 大 
小 限定 了 TCP 通 告 对 端的 窗口 大 小 。TCP 套 接 字 接 收 缓冲 区 不 可 能 溢 
出 ， 因 为 不 允许 对 端 发 出 超过 本 端 所 通告 窗口 大 小 的 数据 。 这 就 是 
TCP 的 流量 控制 ， 如 果 对 端 无 视窗 口 大 小 而 发 出 了 超过 该 窗口 大 小 的 
数据 ， 本 端 TCP 将 丢弃 它们 。 然 而 对 于 UDP 来 说 ， 当 接收 到 的 数据 报 
装 不 进 套 接 字 接收 缓冲 区 时 ， 该 数据 报 就 被 丢弃 。 回 顾 一 下 ，UDP 是 
没有 流量 控制 的 ， 较 快 的 发 送 端 可 以 很 容易 地 淹没 较 慢 的 接收 端 ， 导 
致 接收 端的 UDP 丢 弃 数 据 报 ， 我 们 在 8.13 节 将 展示 这 一 点 。 事 实 上 较 
快 的 发 送 端 甚至 可 以 淹没 本 机 的 网 络 接口 ， 导 致 数据 报 被 本 机 丢弃 。 
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这 两 个 套 接 字 选 项 允许 我 们 改变 这 两 个 缓冲 区 的 默认 大 小 。 对 于 
不 同 的 实现 ， 默 认 值 的 大 小 可 以 有 很 大 的 差别 。 较 早期 的 源 目 
Berkeley 的 实现 将 TCP 发 送 和 接收 缓冲 区 的 大 小 均 默 认为 
4 096 字 和 ， 而 较 新 的 系统 使 用 较 大 的 值 ， 可 以 是 8 192~61 440 字 广 间 
的 任何 值 。 如 果 主 机 文 持 NFS， 那 么 UDP 发 送 缓冲 区 的 大 小 经 名 默认 
为 9 000 字 节 左 右 的 一 个 值 ， 而 UDP 接 收 缓冲 区 的 大 小 则 经 常 默认 为 40 
000 字 下 左右 的 一 个 值 。 


当 设 置 TCP 套 接 字 接收 缓 神 区 的 大 小 时 ， 画 数 调用 的 顺序 很 重 
要 。 这 是 因为 TCP 的 窗口 规模 选项 (2.677) 是 在 建立 连接 时 用 SYN 分 
节 与 对 端 互 换 得 到 的 。 对 于 客户 ， 这 意味 着 SO_RCVBUF 选 项 必须 在 调 


用 connect 之 前 设置 ;对 于 服务 器 ， 这 意味 着 该 选项 必须 在 调用 
1isten 之 前 给 监听 套 接 字 设 置 。 给 已 连接 套 接 字 设 置 该 选项 对 于 可 
能 存在 的 窗口 规模 选项 没有 任何 影响 ， 因 为 accept 直 到 TCP 的 三 路 氛 
手 完成 才 会 创建 并 返回 已 连接 套 接 字 。 这 就 是 必须 给 监听 套 接 字 设 置 
本 选项 的 原因 。 〈 套 接 字 缓冲 区 的 大 小 总 是 由 新 创建 的 已 连接 套 接 字 
从 监听 套 接 字 继 承 而 来 : TCPv2 第 462~-463 页 ) ° 


TCP 套 接 字 缓 神 区 的 大 小 至 少 应 该 是 相应 连接 的 MSS 值 的 四 倍 。 
对 于 单 向 数据 传输 〈 璧 如 单个 方 癌 的 文件 传送 ) ， 当 我 们 说 “ 套 接 字 缓 
冲 区 大 小 ?时 ， 我 们 指 的 是 发 送 端 主机 上 的 套 接 字 发 送 缓冲 区 大 小 和 接 
收 端 主机 上 的 套 接 字 接收 缓冲 区 大 小 。 对 于 双 回 数据 传输 ， 我 们 在 发 
送 端 指 的 是 收发 两 个 套 接 字 缓冲 区 的 大 小 ， 在 接收 端 也 是 指 收发 两 个 
套 接 字 缓 冲 区 的 大 小 。 上 典型 的 缓冲 区 大 小 默认 值 是 8192 字 节 或 更 大 ， 
典型 的 MSS 值 为 512 或 1460， 这 些 要 求 一 般 总 能 被 满足 。 


TCP 套 接 字 缓冲 区 的 大 小 至 少 为 MSS 值 的 4 倍 这 一 点 的 依据 是 TCP 
快速 恢复 算法 的 工作 机 制 。TCP 发 送 端 使 用 3 个 重复 的 确认 来 检测 某 个 
分 节 是 否 丢 失 (REC 2581 [Allman, Paxson, and Stevens 1999] ) 。 发 
现 某 个 分 世 丢 失 后 ， 接 收 端 将 给 新 收 到 的 每 个 分 节 发 送 一 个 重复 的 确 
认 。 如 果 窗 口 大 小 不 足以 存放 4 个 这 样 的 分 节 ， 那 就 不 可 能 连 发 三 个 重 
复 的 确认 ， 从 而 无 法 激活 快速 恢复 算法 。 


为 避免 潜在 的 缓冲 区 空间 浪费 ，TCP 套 接 字 缓 冲 区 大 小 还 必须 是 
相应 连接 的 MSS 值 的 偶数 倍 。 有 些 实现 奉 应 用 进程 处 理 这 个 细节 问 
题 ， 在 连接 建立 后 向 上 人 铭 入 套 接 字 缓冲 区 大 小 〈TCPv2 第 902 页 ) 。 这 
是 在 建立 连接 之 前 设置 这 两 个 套 接 字 选 项 的 另外 一 个 原因 。 使 用 默认 
的 4.4BSD 大 小 8 192 举 例 来 说 ， 假 设 以 太 网 的 MSS 为 1 460， 在 连接 建 
立时 收发 两 个 套 接 字 缓冲 区 的 大 小 将 被 向 上 侈 入 成 8 760 (6x1 
460) 。 这 个 要 求 并 非 必 需 ; 只 不 过 套 接 字 缓 冲 区 中 MSS 整 数 倍 大 小 以 
外 的 空间 不 会 被 使 用 。 


在 设置 套 接 字 缓 冲 区 大 小 时 万 一 个 需 考 虑 的 问题 涉及 性 能 。 图 7- 
a a (我 们 称 其 为 管 


Ni 55 s 


Ru 


图 7-13 ”8 个 分 节 容 量 的 TCP 连 接 (管道 
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我 们 在 顶部 给 出 4 个 数据 分 厂 ， 在 底部 给 出 4 个 ACK。 即 使 管道 中 
只 有 4 个 数据 分 三 ， 客 户 也 必须 有 至少 8 个 分 节 容 量 的 发 送 缓 冲 区 ， 
TCP 必 须 为 每 个 分 玉 保 留 一 个 副本 ， 直 到 接收 到 来 和 目 服务 硕 的 

HNZACK 。 


这 里 我 们 忽略 了 一 些 细节 。 首 先 ，TCP 的 慢 启 动 算法 限制 了 在 一 
个 空 几 连接 上 最 初 发 送 分 节 的 速度 。 其 次 ，TCP 通 常 每 两 个 分 节 人 确认 
一 次 ， 而 不 是 我 们 所 示 的 每 个 分 节 确 认 一 次 。 所 有 这 些 细节 在 TCPv1 
的 第 20 章 和 第 24 章 均 有 阐述 。 


理解 的 重点 在 于 全 双 工 管道 的 概念 、 它 的 容量 以 及 它们 如 何 天 系 
到 连接 两 端的 套 接 字 缓 冲 区 大 小 。 管 道 的 容量 称 为 带宽 一 延迟 积 
(bandwidth-delay product) ， 它 通过 将 带宽 (bit/s) 和 RTT (Rb) 相 
乘 ， 再 将 结果 由 位 转换 为 字 广 计算 得 到 。 其 中 RTT 可 以 很 容易 地 使 用 
ping 程 序 测 得 。 


带宽 是 相应 于 两 个 端点 之 间 最 慢 链 路 的 值 ， 某 种 程度 上 是 已 知 

的 。 举 例 来 说 ，RTT 为 60 ms 的 一 条 T1 链 路 (1 536 000 bit/s) 的 带宽 一 
延迟 积 为 11 520 字 有。 如 果 套 接 字 缓冲 区 大 小 小 于 该 值 ， 管 道 将 不 会 
处 于 满 状 态 ， 性 能 也 将 低 于 期 望 值 。 当 带宽 变 大 (如 45 Mbit/s 的 T3 链 
路 ) 或 RTT 变 大 (如 RTT 约 为 500 ms 的 卫星 链 路 ) 时 ， 套 接 字 缓冲 区 
也 需要 增长 。 当 带宽 一 延迟 积 超 过 TCP 的 最 大 正常 窗口 大 小 (65535 
字 节 ) 时 ， 两 端 就 得 设置 我 们 在 2.6 节 提 到 过 的 TCP 长 胖 管 道 (long fat 
pipe) 选项 。 


大 多 数 实现 对 套 接 字 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 都 设 有 一 个 
上 限 ， 有 时 这 个 上 限 可 由 管理 员 进行 修改 。 较 早期 的 源 目 Berkeley 的 
实现 有 一 个 约 为 52 000 字 市 的 硬 上 限 ， 然 而 较 新 的 实现 将 默认 值 增加 
为 256 000 字 市 甚至 更 大 ， 而 且 通 党 可 以 由 管理 员 继 续 增 加 。 不 驻 的 
征 ， 对 于 应 用 程序 来 说 ， 没 有 一 个 简单 的 方法 来 确定 这 个 极限 。 


POSIX 定 义 了 fpathconf 函 数 (大 多 数 实现 都 支持 ) . [EH 
_PC_SOCK_MAXBUF 常 值 作为 它 的 第 二 个 参数 ， 我 们 就 能 获取 套 接 字 
缓冲 区 的 最 大 大 小 。 当 然 应 用 程序 也 可 以 移 党 试 把 套 接 字 缓冲 区 设置 
成 预想 的 大 小 ， 若 失败 则 减 半 继 续 尝 试 ， 直 到 成 功 。 最 后 我 们 指出 ， 
应 用 程序 在 把 套 接 字 缓冲 区 的 大 小 设置 成 某 个 预 配置 的 “大 ” 值 时 ， 应 
该 确保 这 样 做 不 会 反而 让 缓冲 区 变 小 了 ; 最 好 一 开始 就 调用 
getsockopt 获 取 系 统 的 默认 值 并 判定 是 否 已 足够 大 。 


7.5.9 SO_RCVLOWAT 和 SO_SNDLOWAT 套 接 字 选 
项 


N 


每 个 套 接 字 还 有 一 个 接收 低 水 位 标记 和 一 个 发 送 低 水 位 标记 。 它 
们 由 select 函 数 使 用 ， 如 6.3 世 所 述 。 这 两 个 套 接 字 选 项 允许 我 们 修 
改 这 两 个 低 水 位 标记 。 


接收 低 水 位 标记 是 让 select 返 回 “ 可 读 ” 时 套 接 字 接 收 缓冲 区 中 所 
需 的 数据 量 。 对 于 TCP、UDP 和 SCTP 套 接 字 ， 其 默认 值 为 1。 发 送 低 
水 位 标记 是 让 select 返 回 “ 可 写 ?" 时 套 接 字 发 送 缓冲 区 中 所 需 的 可 用 衬 
间 。 对 于 TCP 套 接 字 ， 其 默认 值 通常 为 2048。 如 6.3 节 所 述 ，UDP 也 使 
用 发 送 低 水 位 标记 ， 然 而 由 于 UDP 套 接 字 的 发 送 缓冲 区 中 可 用 空间 的 
字 节 数 从 不 改变 (因为 UDP 并 不 为 由 应 用 进程 传递 给 它 的 数据 报 保留 
BIAS) ， 只 要 一 个 UDP 套 接 字 的 发 送 缓冲 区 大 小 大 于 该 套 接 字 的 低 水 
位 标记 ， 该 UDP 套 接 字 就 总 是 可 写 。 回 顾 图 2-16， 我 们 记得 UDP 并 没 
有 发 送 缓冲 区 ， 而 只 有 发 送 缓冲 区 大 小 这 个 属性 。 
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7.5.10 ”SO_RCVTIMEO 和 SO _SNDTIMEO0 套 接 字 
选项 


这 两 个 选项 允许 我 们 给 套 接 字 的 接收 和 发 送 设 置 一 个 超时 值 。 注 
意 ， 访 问 它们 的 getsockopt 和 setsockopt 函 数 的 参数 是 指向 
timeval 结 构 的 指针 ， 与 select 所 用 参数 相同 (6.377) 。 这 可 让 我 
们 用 秒 数 和 微 秒 数 来 规定 超时 。 我 们 通过 设置 其 值 为 Os 和 0s 来 禁止 超 
上 时。 默认 情况 下 这 两 个 超时 都 是 禁止 的 。 


接收 超时 影响 5 个 输入 函数 : read ^ readv ^ recv > recvfrom 
和 recvmsg。 发 送 超时 影响 5 个 输出 函数 : write、writev、 
send、sendto 和 sendmsg。 我 们 将 在 14.2 和 详细 讨论 套 接 字 超 时 。 


这 两 个 套 接 字 选 项 以 及 套 接 字 接收 超时 和 发 送 超时 的 继承 概念 是 
在 4.3BSD Reno 中 增加 的 。 


在 源 自 Berkeley 的 实现 中 ， 这 两 个 值 实际 上 用 于 实现 针对 读 或 写 


系统 调用 的 休止 状态 定时 器 (inactivity timer) ， 而 不 是 不 论 状态 的 绝 
对 定时 器 (absolute timer) 。TCPv2 第 496~516 页 对 此 作 了 详细 讨论 。 


7.5.11 SO_REUSEADDR 和 SO_REUSEPORT 套 接 
字 选 项 

SO_REUSEADDR 套 接 字 选项 能 起 到 以 下 4 个 不 同 的 功用 。 

(1) SO_REUSEADDR 人 允许 启动 一 个 监 昕 服务 器 并 捆绑 其 众所周知 
端口 ， 即 使 以 前 建立 的 将 该 端口 用 作 它 们 的 本 地 端口 的 连接 仍 存 在 。 
这 个 条 件 通 常 是 这 样 页 到 的 : 

a) 启动 一 个 监听 服务 器 ; 

b) 连接 请 求 到 达 ， 派 生 一 个 子 进程 来 处 理 这 个 客户 ; 

c) 监听 服务 器 终止 ， 但 子 进程 继续 为 现 有 连接 上 的 客户 提供 服 


R 


d) 重启 监听 服务 器 。 


默认 情况 下 ， 当 监听 服务 局 在 步骤 d 通 过 调用 socket“、bind 和 
listen 重 新 启动 时 ， 由 于 它 试图 捆绑 一 个 现 有 连接 ( 即 正 由 早先 派 
生 的 那个 子 进程 处 理 着 的 连接 ) 上 的 端口 ， 从 而 bind 调 用 会 失败 。 但 
是 如 果 该 服务 器 在 socket 和 bind 两 个 调用 之 间 设 置 了 
SO_REUSEADDR 套 接 字 选项 ， 那 么 bind 将 成 功 。 所 有 TCP 服 务 器 都 应 
该 指定 本 套 接 字 选 项 ， 以 允许 服务 器 在 这 种 情形 下 被 重新 启动 。 


这 种 情形 是 USENET 中 间 得 最 频繁 的 问题 之 一 。 
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(2) SO_REUSEADDR 人 允许 在 同一 端口 上 局 动 同一 服务 器 的 多 个 实 
例 ， 只 要 每 个 实例 捆绑 一 个 不 同 的 本 地 卫 地 址 即 可 。 这 对 于 使 用 卫 别 
名 技术 (A.4 节 ) 托管 多 个 HTTP 服 务 器 的 网 点 (site) 来 说 是 很 常见 
的 。 举 例 来 说 ， 假 设 本 地 主机 的 主 IP 地 址 为 198.69.10.2， 不 过 它 有 两 
个 别名 : 198.69.10.128 和 198.69.10.129。 在 其 上 启动 三 个 HTTP 服 务 
器 。 第 一 个 HTTP 服务 器 以 本 地 通 配 IP 地 址 INADDR_ANY 和 本 地 端口 号 
80 (HTTP 的 众所周知 端口 ) 调用 bind。 第 二 个 HTTP 服 务 器 以 本 地 IP 
地 址 198.69.10.128 和 本 地 端口 号 80 调 用 bind。 这 次 调用 bind 将 失 
败 ， 除 非 在 调用 前 设置 了 SO_REUSEADDR 套 接 字 选项 。 第 三 个 HTTP 
服务 器 以 本 地 IP 地 址 198.69.10.129 和 本 地 端口 号 80 调 用 bind。 这 次 调 
用 bind 成 功 的 先决 条 件 同样 是 预先 设置 SO_REUSEADDR。 假 设 
SO_REUSEADDR 均 已 设置 ， 从 而 三 个 服务 絮 都 启动 了 ， 目 的 IP 地 址 为 
198.69.10.128、 目 的 端口 号 为 80 的 外 来 TCP 连 接 请 求 将 被 递送 给 第 二 
个 服务 器 ， 目 的 IP 地 址 为 198.69.10.129、 目 的 端口 号 为 80 的 外 来 请 求 
将 被 递送 给 第 三 个 服务 妖 ， 目 的 端口 号 为 80 的 所 有 其 他 TCP 连 接 请 求 
将 都 递送 给 第 一 个 服务 器 。 这 个 “默认 ?服务 器 处 理 目 的 地 址 为 
198.69.10.2 或 该 主机 已 配置 的 任何 其 他 IP 别 名 的 请 求 。 这 里 通 配 地 址 
的 意思 就 是 “没有 更 好 的 ( 即 更 为 明确 的 ) 匹配 的 任何 地 址 >”。 注 意 ， 
允许 某 个 给 定 服务 存在 多 个 服务 器 的 情形 在 服务 器 总 是 设置 
MM ER D 自动 处 理 的 (我们 建议 设置 这 个 选 
项 ) e 


对 于 TCP， 我 们 绝 不 可 能 局 动 捆绑 相同 卫 地 址 和 相同 端口 号 的 多 
个 服务 器 : 这 是 完全 重复 的 捆绑 (completely duplicate binding) ° tE, 
就 是 说 ， 我 们 不 可 能 在 启动 绑 定 198.69.10.2 和 端口 80 的 服务 避 后 ， 再 
启动 同样 捆绑 198.69.10.2 和 端口 80 的 另 一 个 服务 器 ， 即 使 我 们 给 第 二 
个 服务 器 设置 了 SO_REUSEADDR 套 接 字 选项 也 不 管用 。 


为 了 安全 起 见 ， 有 些 操 作 系 统 不 允许 对 已 经 绑 定 了 通 配 地 址 的 端 
口 再 捆绑 任何 “更 为 明确 的 ?地址 ， 也 就 是 说 不 论 是 否 预 先 设置 
SO_REUSEADDR， 上 述 例 子 中 的 系列 bind 调 用 都 会 失败 。 在 这 样 的 
系统 上 ， 执 行 通 配 地 址 捆绑 的 服务 器 进程 必须 最 后 一 个 启动 。 这么 做 
是 为 了 防止 把 恶意 的 服务 器 捆绑 到 某 个 系统 服务 正在 使 用 的 IP 地 址 和 
端口 上 ， 造 成 合法 请 求 被 截取 。 这 一 点 对 于 NEFS 更 成 问题 ， 因 为 NFS 
通常 不 使 用 特权 端口 。 


(3) SO_REUSEADDR 人 允许 单个 进程 捆绑 同一 端口 到 多 个 套 接 字 
上 ， 只 要 每 次 捆绑 指定 不 同 的 本 地 IP 地 址 即 可 。 在 不 支持 
IP_RECVDSTADDR 套 接 字 选项 的 系统 上 ， 这 对 于 要 求知 道 客 户 请 求 的 
目的 也 地 址 的 UDP 服务 器 来 说 是 非常 普遍 的 。TCP 服 务 器 通常 不 使 用 
这 种 方法 ， 因 为 TCP 服 务 器 在 建立 连接 后 总 是 能 够 通过 调用 
getsockname 来 确定 客户 请 求 的 目的 耳 地 址 。 然 而 对 于 希望 在 一 个 多 
目的 主机 的 若干 个 (MIE) 本 地 地 址 上 服务 连接 的 TCP 服 务 器 进 
程 来 说 ， 仍 需 采 用 这 种 方法 。 
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(4) SO_REUSEADDR 人 允许 完全 重复 的 捆绑 : 当 一 个 了 P 地 址 和 端口 已 
绑 定 到 某 个 套 接 字 上 时 ， 如 果 传 输 协 议 文 持 ， 同 样 的 卫 地 址 和 端口 还 
可 以 捆绑 到 另 一 个 套 接 字 上 。 一 般 来 说 ， 本 特性 仅 文 持 UDP 套 接 字 。 


本 特性 用 于 多 播 时 ， 人 允许 在 同一 个 主机 上 同时 运行 同一 个 应 用 程 
序 的 多 个 副本 。 当 一 个 UDP 数据 报 需 由 这 些 重复 捆绑 套 接 字 中 的 一 个 
接收 时 ， 所 用 规则 为 : 如 果 该 数据 报 的 目的 地 址 是 一 个 广播 地 址 或 多 
播 地 址 ， 那 就 给 每 个 匹配 的 套 接 字 递 送 一 个 该 数据 报 的 副本 ;但 是 如 
果 该 数据 报 的 目的 地 址 是 一 个 单 播 地 址 ， 那 么 它 只 递送 给 单个 套 接 
字 。 在 单 播 数 据 报 情况 下 ， 如 果 有 多 个 套 接 字 匹 配 该 数据 报 ， 那 么 该 
选择 由 哪个 套 接 字 接 收 它 取 雇 于 实现 。TCPv2 第 777 一 779 页 详细 讨论 
了 本 特性 。 我 们 将 在 第 20 章 和 第 21 章 中 详细 讨论 广播 和 多 播 。 


习题 7.5 和 习题 7.6 给 出 了 本 套 接 字 选 项 的 儿 个 例子 。 


4.4BSD 随 多 播 支持 的 添加 引入 了 SoO_REUSEPORT 这 个 套 接 字 选 
项 。 它 并 未 在 SO_REUSEADDR 上 重 载 所 需 多 播 语义 〈 即 允许 完全 重复 
的 捆绑 ) ， 而 是 给 SO_REUSEPORT 引 入 了 以 下 语义 : 


(1) 本 选项 允许 完全 重复 的 捆绑 ， 不 过 只 有 在 想 要 捆绑 同一 IP 地 址 
和 端口 的 每 个 套 接 字 都 指定 了 本 套 接 字 选 项 才 行 ; 

(2) 如 果 被 捆绑 的 IP 地 址 是 一 个 多 播 地 址 ， 那 么 SO_REUSEADDR 和 
SO_REUSEPORT 被 认为 是 等 效 的 〈TCPv2 第 731 页 ) ° 


本 套 接 字 选 项 的 问题 在 于 并 非 所 有 系统 都 支持 它 。 在 那些 不 支持 
本 选项 但 是 支持 多 播 的 系统 上 ， 我 们 改 用 SO_REUSEADDR 以 允许 合理 


的 完全 重复 的 捆绑 〈 也 就 是 同一 时 刻 在 同一 个 主机 上 可 运行 多 次 且 期 
行 接收 广播 或 多 播 数据 报 的 UDP 服务 器 ) 。 


我 们 以 下 面 的 建议 来 总 结对 这 些 套 接 字 选 项 的 讨论 : 


(1) 在 所 有 TCP 服 务 器 程序 中 ， 在 调用 blind 之 前 设置 
SO_REUSEADDR 套 接 字 选项 ; 


(2) 当 编 写 一 个 可 在 同一 时 刻 在 同一 主机 上 运行 多 次 的 多 播 应 用 程 
序 时 ， 设 置 SO_REUSEADDR 套 接 字 选项 ， 并 将 所 参加 多 播 组 的 地 址 作 
为 本 地 IP 地 址 捆绑 。 


TCPv2 第 22 章 对 这 两 个 套 接 字 选 项 作 了 详细 的 讨论 。 
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SO_REUSEADDR 有 一 个 潜在 的 安全 问题 。 举 例 来 说 ， 假 设 存在 一 
个 绑 定 了 通 配 地 址 和 端口 5555 的 套 接 字 ， 如 果 指 定 SO_REUSEADDR， 
我 们 就 可 以 把 相同 的 端口 捆绑 到 不 同 的 IP 地 址 上 ， 壁 如 说 就 是 所 在 主 
机 的 主 IP 地 址 。 此 后 目的 地 为 端口 5555 及 新 绑 定 IP 地 址 的 数据 报 将 被 
递送 到 新 的 套 接 字 ， 而 不 是 递送 到 绑 定 了 通 配 地 址 的 已 有 套 接 字 。 这 
些 数据 报 可 以 是 TCP 的 SYN 分 节 、SCTP 的 INIT 块 或 UDP 数 据 报 。 CJ 
题 11.9 展 示 了 UDP 的 这 个 特性 。) 对 于 大 多 数 众 所 周知 的 服务 如 
HTTP、EFTP 和 Telnet 来 说 ， 这 不 成 问题 ， 因 为 这 些 服务 右 绑 定 的 是 保 
留 端口 。 这 种 情况 下 ， 后 来 的 试图 捆绑 这 些 端口 更 为 明确 的 实例 (也 
就 是 盗用 这 些 端口 ) 的 任何 进程 都 需要 超级 用 户 特权 。 然 而 NFS 可 能 
是 一 个 问题 ， 因 为 它 的 通常 端口 (2049) 并 不 是 保留 端口 。 


套 接 字 API 的 一 个 底层 问题 是 : 套 接 字 对 的 设置 由 两 个 函数 调用 
(bind 和 connect) 而 不 是 一 个 来 完成 。 [Torek 1994] 为 解决 本 问 
题 提 议 了 如 下 单个 函数 : 


int bind connect listen(int sockfd, 
const struct sockaddr *laddr, int laddrlen, 


const struct sockaddr *faddr, int faddrlen, 
int listen); 


其 中 jaddr 指 定 本 地 卫 地 址 和 本 地 端口 号 ，jaddr 指 定 外 地 耻 地 址 和 
外 地 端口 号 ，listen 指 定 一 个 客户 (0) 或 一 个 服务 器 (EO, 5 
listen 函 数 的 backlog 参 数 相 同 ) 。 这 样 的 话 ，bind 将 是 一 个 用 空 指 
针 的 faddr 和 为 0 的 faddrlen 来 调用 该 函数 的 库 函 数 ，connect 将 是 一 个 
用 空 指 针 的 laddr 和 为 0 的 laddrlen 来 调用 该 函数 的 库 画 数 。 有 些 应 用 程 
FF (特别 是 TFTP) 需要 同时 指定 会 话 的 本 地 地 址 对 和 外 地 地 址 对 ， 它 
们 可 以 直接 调用 bind_connect_1isten。 有 了 这 样 的 一 个 函数 就 不 
需要 SO_REUSEADDR 了 ， 除 非 面 对 明 确 要 求人 多 许 完 全 重复 地 捆绑 相同 
IP 地 址 和 端口 的 多 播 UDP 服 务 右 。 本 函数 的 男 一 个 好 处 是 : TCP 服 务 
器 可 以 限定 自己 仪 为 来 自 特定 IP 地 址 和 端口 的 连接 请 求 提供 服务 。 这 
是 RFC 793 [Postel] 规定 的 ， 但 是 对 于 现 有 的 套 接 字 API 来 说 却 是 不 
可 能 实现 的 。 


7.5.12 SO TYPEZ EE EM 


本 选项 返回 套 接 字 的 类 型 ， 返 回 的 整数 值 是 一 个 诸如 
SOCK_STREAM 或 SOCK_DGRAM 之 类 的 值 。 本 选项 通常 由 启动 时 继承 
了 套 接 字 的 进程 使 用 。 


7.5.13 SO _USELOOPBACK 套 接 字 选项 


本 选项 仅 用 于 路 由 域 (AF_ROUTE) 的 套 接 字 。 对 于 这 些 套 接 
字 ， 它 的 默认 设置 为 打开 〈 这 是 唯一 一 个 默认 值 为 打开 而 不 是 关闭 的 
S0_xxx 二 元 套 接 字 选 项 ) 。 当 本 选项 开局 时 ， 相 应 套 接 字 将 接收 在 其 
上 发 送 的 任何 数据 报 的 一 个 副本 。 


禁止 这 些 环 回 副本 的 另 一 个 方法 是 调用 shutdown， 并 设置 它 的 
第 二 个 参数 为 SHUT_RD。 
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7.6 ”IPv4 套 接 字 选项 


这 些 套 接 字 选项 由 IPv4 处 理 ， 它 们 的 级 别 ( 即 getsockopt 和 
setsockopt 函 数 的 第 二 个 参数 ) 为 TLPPROTO_IP。 我 们 把 其 中 的 多 
播 套 接 字 选项 推迟 到 21.6 节 再 讨论 。 


7.6.1 IP_HDRINCL 套 接 字 选项 


如 果 本 选项 是 给 一 个 原始 IP 套 接 字 (第 28 章 ) 设置 的 ， 那 么 我 们 
必须 为 所 有 在 该 原始 套 接 字 上 发 送 的 数据 报 构造 自己 的 卫 首 部 。 一 般 
情况 下 ， 在 原始 套 接 字 上 发 送 的 数据 报 其 IP 首 部 是 由 内 核 构造 的 ， 不 
过 有 些 应 用 程序 (特别 是 路 由 跟踪 程序 traceroute) 需要 构造 自己 
的 IP 首 部 以 取代 IP 置 于 该 首部 中 的 某 些 字 段 。 


当 本 选项 开局 时 ， 我 们 构造 完整 的 IP 诈 部 ， 不 过 下 列 情况 例外 。 


。 JIP 总 是 计算 并 存储 卫 首 部 校 验 和 。 

。 如 果 我 们 将 卫 标 识字 段 置 为 0， 内 核 将 设置 该 字段 。 

。 如 果 源 IP 地 址 是 INADDR_ANY，IP 将 把 它 设 置 为 外 出 接口 的 主 IP 
HEHE ° 

。 如 何 设置 IP 选 项 取决 于 实现 。 有 些 实现 取出 我 们 预先 使 用 
IP_OPTIONS 套 接 字 选项 设置 的 任何 IP 选 项 ， 把 它们 添加 到 我 们 
构造 的 首部 中 ， 而 其 他 实现 则 要 求 我 们 亲自 在 首部 指定 任何 期 望 
的 IP 选 项 。 

。 了 IP 首 部 中 有 些 字段 必须 以 主机 字 闻 序 填 写 ， 有 些 字段 必须 以 网 络 
字 节 序 填写 ， 具 体 取决 于 实现 。 这 使 得 利用 本 套 接 字 选 项 编排 原 
始 分 组 的 代码 不 像 期 竺 的 那样 便于 移植 。 


我 们 将 在 29.7 贡 给 出 本 选项 的 一 个 例子 。TCPv2 第 1056~ 一 1057 页 
提供 了 本 选项 的 额外 详情 。 


7.6.2 IP OPTIONS## eM 


AS ETI IOP EB ETP v4 EL Fe TPIT o KBR LCT AA 
悉 卫 首部 中 卫 选 项 的 格式 。 我 们 将 在 27.3 世 讲述 IPv4 源 路 径 时 讨论 这 个 
选项 。 


7.6.3 IP_RECVDSTADDR 套 接 字 选项 


本 侠 接 字 迁 项 导致 所 收 到 UDP 数 据 报 的 目的 IP 地 址 由 recvmsg 孙 
数 作为 辅助 数据 运 回 。 我 们 将 在 22.2 太 给 出 本 选项 的 一 个 例子 。 
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7.6.4 IP_RECVIF 套 接 字 选 项 


本 套 接 字 选 项 导致 所 收 到 UDP 数 据 报 的 接收 接口 索引 由 recvmsg 
函数 作为 辅助 数据 返回 。 我 们 将 在 22.2 市 给 出 本 选项 的 一 个 例子 。 


7.6.5 IP_TOS 套 接 字 选项 


本 套 接 字 选项 允许 我 们 为 TCP、UDP 或 SCTP 套 接 字 设置 IP 首 部 中 
的 服务 类 型 字段 (图 A-1， 该 字段 包含 DSCP 和 ECN 子 字段 ) 。 如 果 我 
们 给 本 选项 调用 getsockopt， 那 么 用 于 放 入 外 出 了 数据 报 首部 的 
DSCP 和 ECN 字 段 中 的 TOS 当 前 值 (默认 为 0) 将 返回 。 我 们 没有 办 法 
从 接收 到 的 IP 数 据 报 中 取得 该 值 。 


应 用 进程 可 以 把 DSCP 设 置 成 用 户 和 网 络 业 务 供应 商 预先 协商 好 的 
某 个 值 ， 以 便 接 受 预 定 的 服务 ， 例 如 对 IP 电 话 的 低 延 迟 服务 ， 对 海量 
数据 传送 的 高 吞吐 量 服务 。 由 RFC 2474 [Nichols et al. 1998] 定义 的 
区 分 服务 (diffserv) 体系 结构 只 是 有 限 回 后 兼容 历史 性 的 TOS 字 段 定 
X. (REC 1349 [Almquist 1992] ) 。 把 IP_TOS 设 置 成 
<netinet/ip.h> 中 定义 的 某 个 常 值 (例如 IPTOS_LOWDELAY 和 
IPTOS THROUGHPUT) 的 应 用 程序 应 该 改 为 使 用 由 用 户 指定 的 某 个 
DSCP 值 。 区 分 服务 存留 的 TOS 值 只 有 优先 权 级 别 6 (“internetwork 
control”， 网 间 控 制 ) 和 7 (“network control”*"， 网 内 控制 ) ， 这 意味 着 
把 TP_TOS 设 置 成 TPTOS_PREC_NETCONTROL 或 TPTOS_PREC_ 
INTERNETCONTROL 的 应 用 程序 在 区 分 服务 网 络 中 可 以 继续 工作 。 


RFC 3168 |Ramakrishnan, Floyd, and Black 2001] 中 有 ECN 字 段 的 
定义 。 应 用 进程 通常 应 该 把 ECN 字 上 段 的 设置 留 给 内 核 ， 也 就 是 把 由 
IP_TOS 设 置 的 值 中 的 低 两 位 指定 为 0。 


76.6 IP TILE AM 


我 们 可 以 使 用 本 选项 设置 或 获取 系统 用 在 从 某 个 给 定 套 接 字 发 送 
的 单 播 分 组 上 的 默认 TTL 值 (图 A-1) 。 (多 播 TTL 值 使 用 
IP_MULTICAST_TTL 套 接 字 选项 设置 ， 见 21.6 节 。) 例如 4.4BSD 对 
TCP 和 UDP 套 接 字 使 用 的 默认 值 都 是 64 (这 由 IANA 的 “IP Option 
Numbers” 注 册 处 规定 ) ， 对 原始 套 接 字 使 用 的 默认 值 则 是 255。 跟 TOS 
字段 一 样 ， 调 用 getsockopt 返 回 的 是 系统 将 用 于 外 出 数据 报 的 字段 
的 默认 值 。 我 们 没有 办 法 从 接收 到 的 IP 数 据 报 中 取得 该 值 。 我 们 将 在 
图 28-19 所 示 的 traceroute 程 序 中 设置 本 套 接 字 选 项 。 
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7.7 ”ICMPv6 套 接 字 选项 


这 个 唯一 的 套 接 字 选 项 由 ICMPv6 处 理 ， 它 的 级 别 (HD 
getsockopt 和 setsockopt 函 数 的 第 二 个 参数 ) 为 
IPPROTO_ICMPV6 ° 


ICMP6 _FILTERE EJ 


本 选项 允许 我 们 获取 或 设置 一 个 icmp6_filter 结 构 ， 该 结构 指 
出 256 个 可 能 的 ICMPvV6 消 息 类 型 中 哪些 将 经 由 某 个 原始 套 接 字 传 递 给 
所 在 进程 。 我 们 将 在 28.4 节 再 讨论 本 选项 。 


7.8 ”IPv6 套 接 字 选项 


这 些 套 接 字 选 项 由 IPv6 人 处理 ， 它 们 的 级 别 (Elgetsockopt fil 
setsockopt 函 数 的 第 二 个 参数 ) 为 IPPROTO_IPV6。 我 们 把 多 播 套 
接 字 选项 推迟 到 21.6 节 再 讨论 。 这 些 选 项 中 有 许多 用 上 了 recvmsg 画 
数 的 辅助 数据 (ancillary data) 参数 ， 我 们 将 在 14.6 节 讨论 它 。 所 有 
IPv6 套 接 字 选 项 都 定义 在 RFC 3493 [Gilligan et al. 2003] 和 RFC 3542 

| Stevens et al. 2003] 中 。 


7.8.1 IPV6 _CHECKSUM 套 接 字 选项 


本 选项 指定 用 户 数 据 中 校 验 和 所 处 位 置 的 字 节 偏 移 。 如 果 该 值 为 
非 负 ， 那 么 内 核 将 : 0 给 所 有 外 出 分 组 计算 并 存储 校 验 和 ; D 
验证 外 来 分 组 的 校 验 和 ， 丢 弃 所 有 校 验 和 无 效 的 分 组 。 本 选项 影响 除 
ICMPv6 原 始 套 接 字 以 外 的 所 有 IPv6 原 始 套 接 字 。 (内 核 总 是 给 
ICMPv6 原 始 套 接 字 计算 并 存储 校 验 和 。) 如 果 指 定 本 选项 的 值 为 -1 

(默认 值 ) ， 那 么 内 核 不 会 在 相应 的 原始 套 接 字 上 计算 并 存储 外 出 分 
组 的 校 验 和 ， 也 不 会 验证 外 来 分 组 的 校 验 和 。 


所 有 使 用 IPv6 的 协议 在 它们 各 自 的 协议 首部 都 应 该 有 一 个 校 验 
和 。 这 些 校 验 和 包含 一 个 伪 首 部 (pseudoheader) (RFC 2460 
| Deering and Hinden 1998] ) ， 而 伪 首 部 包括 作为 校 验 和 一 部 分 的 源 
IPv6 地 址 (这 一 点 不 同 于 通常 使 用 IPv4 原 始 套 接 字 来 实现 的 所 有 其 他 
协议 ) 。 这 样 不 必 强 求 使 用 原始 套 接 字 的 应 用 进程 进行 源 地 址 选择 ， 
nos 内 核 这 么 做 ， 并 由 内 核 计算 并 存储 包含 标准 IPv6 伪 首部 的 检验 
0 o 


7.82  IPV6 _DONTFRAG 套 接 字 选项 


开启 本 选项 将 禁止 为 UDP 套 接 字 或 原始 套 接 字 上 自动 插入 分 片 首 
部 ， 外 出 分 组 中 大 小 超过 发 送 接口 MTU 的 那些 分 组 将 被 丢弃 。 发 送 分 
组 的 系统 调用 不 会 为 此 返回 错误 ， 因 为 已 发 送出 去 仍 在 途中 的 分 组 也 
可 能 因为 超过 路 径 MTU 而 被 丢弃 。 应 用 进程 应 该 开启 
IPV6_RECVPATHMTU 选 项 以 获悉 路 径 MTU 的 变动 。 
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7.8.3 IPV6 _NEXTHOP 套 接 字 选项 


本 选项 将 外 出 数据 报 的 下 一 跳 地 址 指定 为 一 个 套 接 字 地 址 结构 。 
这 是 一 个 特权 操作 。 我 们 将 在 22.8 节 详细 讨论 这 个 特性 。 


7.8.4 IPV6 PATHMTU 套 接 字 选项 


本 选项 不 能 设置 ， 只 能 获取 。 获 取 本 选项 时 ， 返 回 值 为 由 路 径 
MTU 发 现 功能 确定 的 当前 MTU ( 见 22.9 节 ) e 


7.8.5 IPV6 RECVDSTOPTS## EI 


开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 目 的 地 选项 都 将 由 recvmsg 
作为 辅助 数据 返回 。 本 选项 默认 为 关闭 。 我 们 将 在 27.5 节 讲述 用 来 创 
建 和 处 理 这 些 目的 地 选项 的 函数 。 


7.8.6 IPV6 RECVHOPLIMIT 套 接 字 选项 


开局 本 选项 表明 ， 任 何 接收 到 的 跳 限 字 段 都 将 由 recvmsg 作 为 辅 
助 数 据 返 回 。 本 选项 默认 为 天 闭 。 我 们 将 在 22.8 市 讲述 本 选项 。 


对 IPv4 而 言 ， 没 有 办 法 可 以 获取 接收 到 的 TTL 字 段 。 
7.8. IPV6 RECVHOPOPTS 套 接 字 选项 
开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 步 跳 选项 都 将 由 recvmsg 作 


为 辅助 数据 返回 。 本 远 项 默认 为 关闭 。 我 们 将 在 27.5 广 讲述 用 于 创建 
和 处 理 这 些 步 跳 选项 的 函数 。 


7.8.8 IPV6 RECVPATHMTU 套 接 字 选项 


开局 本 选项 表明 ， 某 条 路 径 的 路 径 MTU 在 发 生变 化 时 将 由 
recvmsg 作 为 辅助 数据 返回 (不 伴随 任何 数据 ) 。 我 们 将 在 22.9 节 讲 
述 本 选项 。 


7.8.9 IPV6 RECVPKTINF0 套 接 字 选项 

开启 本 选项 表明 ， 接 收 到 的 ITPv6 数 据 报 的 以 下 两 条 信息 将 由 
recvmsg 作 为 辅助 数据 返回 ， 目 的 IPv6 地 址 和 到 达 接 口 索引 。 我 们 将 
在 22.8 节 讲述 本 选项 。 
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7.8.10 IPV6 RECVRTHDR#2 FA 


开启 本 选项 表明 ， 接 收 到 的 IPv6 路 由 首部 将 由 recvmsg 作 为 辅助 
数据 返回 。 本 选项 默认 为 关闭 。 我 们 将 在 27.6 节 讲述 用 于 创建 和 处 理 
IPv6 路 由 首部 的 函数 。 


7.8.11 IPV6 RECVTCLASS 套 接 字 选项 


开启 本 选项 表明 ， 接 收 到 的 流通 类 别 (包含 DSCP 和 ECN 字 上段) 将 
由 recvmsg 作 为 辅助 数据 返回 。 本 选项 默认 为 关闭 。 我 们 将 在 22.8 闻 
讲述 本 选项 。 


7.8.12 IPV6 UNICAST HOPS 套 接 字 选项 


本 IPv6 选 项 类 似 于 IPv4 的 IP_TTL 套 接 字 选项 。 设 置 本 选项 会 给 在 
相应 套 接 字 上 发 送 的 外 出 数据 报 指定 默认 跳 限 ， 获 取 本 选项 会 返回 内 
核 用 于 相应 套 接 字 的 跳 限 值 。 来 自 接 收 到 的 IPv6 数 据 报 中 跳 限 字段 的 
实际 值 通过 使 用 IPV6_RECVHOPLIMIT 套 接 字 选项 取得 。 我 们 将 在 图 
28-19 所 示 的 traceroute 程 序 中 设置 本 套 接 字 选 项 。 


7.8.13 IPV6 USE MIN MTU 套 接 字 选项 


把 本 选项 设置 为 1 表明 ， 路 径 MTU 发 现 功能 不 必 执 行 ， 为 避免 分 
请 ,分 组 束 使 用 IPv6 的 最 小 MTU 发 送 。 把 本 选项 设置 为 0 表明 ， 路 径 
MTU 发 现 功 能 对 于 所 有 目的 地 都 得 执行 。 把 本 选项 设置 为 -1 表明 ， 路 
径 MTU 发 现 功 能 仅 对 单 播 目 的 地 执行 ， 对 于 多 播 目 的 地 就 使 用 最 小 
MTU。 本 选项 默认 值 为 -1。 我 们 将 在 22.9 下 讲述 本 选项 。 


7.8.14 IPV6 _V60NLY 套 接 字 选项 


在 一 个 AF_INET6 套 接 字 上 开局 本 选项 将 限制 它 只 执行 IPv6 通 
信 。 本 选项 默认 为 关闭 ， 不 过 有 些 系统 存在 默认 开启 本 选项 的 手段 。 
我 们 将 在 12.2 节 和 12.3 节 讲述 使 用 AF_INET6 套 接 字 的 IPv4 和 IPv6 通 
信 。 


7.8.15 IPV6 _XXX 套 接 字 选项 


大 多 数 用 于 修改 协议 首部 的 IPv6 选 项 假设 : 就 UDP 套 接 字 而 言 
信息 由 recvnsg 和 sendmsg 作 为 辅助 数据 在 内 校 和 应 用 进程 之 间作 
人 递 ， 就 TCP 赛 授 字 而 言 ， 同 样 的 信息 改 用 getsockopt 和 
setsockopt 获 取 和 设置 。 套 接 字 选项 和 辅助 数据 的 类 型 一 致 并 且 
访问 套 接 字 选 项 的 缓冲 区 所 含 的 信息 和 辅助 数据 中 存放 的 信息 也 一 
致 。 我 们 将 在 27.7 节 讲述 这 一 点 。 
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79 ”TCP 套 接 字 选项 


TCP 有 两 个 套 接 字 选 项 ， 它 们 的 级 别 (Blgetsockopt fl 
setsockopt 函 数 的 第 二 个 参数 ) AIPPROTO_TCP ° 


7.9.1 TCP_MAXSEG 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 TCP 连 接 的 最 大 分 节 大 小 (MSS) ° 
返回 值 是 我 们 的 TCP 可 以 发 送 给 对 端的 最 大 数据 量 ， 它 通常 是 由 对 端 
使 用 SYN 分 节 通 告 的 MSS， 除 非 我 们 的 TCP 选 择 使 用 一 个 比 对 端 通告 
的 MSS 小 些 的 值 。 如 果 该 值 在 相应 套 接 字 的 连接 建立 之 前 取得 ， 那 么 
返回 值 是 未 从 对 端 收 到 MSS 选 项 的 情况 下 所 用 的 默认 值 。 还 得 注意 的 
是 ， 如 果 用 上 譬如 说 时 间 惟 选项 的 话 ， 那 么 实际 用 于 连接 中 的 最 大 分 
节 大 小 可 能 小 于 本 套 接 字 选 项 的 返回 值 ， 因 为 时 间 惟 选项 在 每 个 分 节 
中 要 占用 12 字 节 的 TCP 选 项 容量 。 


如 果 TCP 支 持 路 径 MTU 发 现 功能 ， 那 么 它 将 发 送 的 每 个 分 节 的 最 
大 数据 量 还 可 能 在 连接 存活 期 内 改变 。 如 果 到 对 端的 路 径 发 生变 动 ， 
该 值 就 会 有 所 调整 。 


我 们 在 图 7-1 中 指出 ， 本 套 接 字 选项 也 可 以 由 应 用 进程 设置 。 这 一 
点 并 非 在 所 有 系统 上 都 可 行 ， 毕 竟 本 选项 原本 是 个 只 读 选 项 。4.4BSD 
限制 应 用 进程 只 能 减少 其 值 ， 而 不 能 增加 其 值 (TCPv2 第 1023 页 ) ° 
既然 本 选项 控制 TCP 可 以 发 送 的 每 个 分 节 的 数据 量 ， 禁 止 应 用 进程 增 
加 其 值 是 明智 的 。 一 旦 连接 建立 ， 本 选项 的 值 就 是 对 端 通告 的 MSS 选 
项 值 ，TCP 不 能 发 送 超过 该 值 的 分 节 。 当 然 ，TCP 总 是 可 以 发 送 数据 
量 少 于 对 端 通告 的 MSS 值 的 分 节 。 


7.9.2”TCP_NODELAY 套 接 字 选项 


开启 本 选项 将 禁止 TCP 的 Nagle 算 法 (TCPv1 的 19.4 节 和 TCPv2 第 
858~859 页 ) 。 默 认 情况 下 该 算法 是 启动 的 。 


Nagle 算 法 的 目的 在 于 减少 广域网 (WAN) 上 小 分 组 的 数目 。 该 
算法 指出 : 如果 某 个 给 定 连 接 上 有 待 确认 数据 (outstanding data) , 
那么 原本 应 该 作为 用 户 写 操作 之 响应 的 在 该 连接 上 立即 发 送 相应 小 分 
组 的 行为 就 不 会 发 生 ， 直 到 现 有 数据 被 确认 为 止 。? 这 里 “小 ”分 组 的 
定义 就 是 小 于 MSS 的 任何 分 组 。TCP 总 是 尽 可 能 地 发 送 最 大 大 小 的 分 
(ee 
L o 


Rlogin#ll Telneth & mE PAN Fs INE E E, EE 
把 每 次 击 键 作为 单个 分 组 发 送 。 在 快速 的 局 域 网 (LAN) 上 ， 我 们 通 
常 不 会 注意 到 Nagle 算 法 对 这 些 客户 进程 的 影响 ， 因 为 小 分 组 所 需 的 确 
认 时 间 一 般 也 就 儿 奢 秒 ， 远 远 小 于 我 们 相继 键入 两 个 字符 的 间隔 时 
间 。 然 而 在 广域网 上 ， 小 分 组 所 需 的 确认 时 间 可 能 长 达 一 秒 ， 我 们 整 
会 注意 到 字符 回 显 的 延迟 ， 而 且 该 延迟 往往 被 Nagle 算 法 进一步 放大 。 
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考虑 下 面 的 例子 : 我 们 在 Rlogin 或 Telnet 的 客户 端 键入 6 个 字符 的 
串 “hello!”， 每 个 字符 间 间 隅 正好 是 250 ms。 到 服务 器 端的 RTT 为 600 
ms， 而 且 服 务 硕 立即 发 回 每 个 字符 的 回 显 。 我 们 假设 对 客户 端 字 符 的 
ACK 是 和 字符 回 显 一 同 发 回 给 客户 端的 ， 并 且 忽 略 客户 端 发 送 的 对 服 
务 贺 端 回 显 的 ACK。 (我 们 稍 后 将 讨论 延 湛 的 ACK。) 假设 Nagle 算 
法 是 禁止 的 ， 我 们 得 到 图 7-14 所 示 的 12 个 分 组 。 


] —» 500 
|—»- 750 
o —» 1000 
| — 1250 
1500 
1750 


2000 — 


图 7-14 禁止 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 


TO E TAS 
| o 


如 果 Nagle 算 法 是 开局 的 〈 这 是 默认 情形 ) . TE Ls 7-15 At 
示 的 8 个 分 组 。 第 一 个 字符 独 目 作 为 一 个 分 组 发 送 ， 然 而 下 两 个 字符 没 
有 立即 发 送 ， 因 为 该 连接 上 有 一 个 小 分 组 待 确认。 在 时 刻 600 处 收 到 对 
第 一 个 分 组 的 ACK 后 《该 ACK 由 第 一 个 字符 的 回 显 撒 带 ) ， 这 两 个 字 
POA UAM gem a 


2500 


图 7-15 ”开启 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 


Nagle 算 法 常常 与 男 一 个 TCP 算 法 联合 使 用 : ACKER RIE 

(delayed ACK algorithm) 。 该 算法 使 得 TCP 在 接收 到 数据 后 不 立即 发 
送 ACK， 而 是 等 待 一 小 段 时 间 (GRAMME A50~200ms) ， 然 后 才 发 送 
ACK。TCP 期 待 在 这 一 小 段 时 间 内 自身 有 数据 发 送 回 对 端 ， 被 延 沾 的 
ACK 就 可 以 由 这 些 数 据 撒 带 ， 从 而 省 掉 一 个 TCP 分 和 节 。 这 种 情形 对 于 
Rlogin 和 Telnet 客 户 米 说 通常 可 行 ， 因 为 它们 的 服务 器 一 般 都 回 显 客户 
发 送 来 的 每 个 字符 ， 这 样 对 客户 端 字符 的 ACK 完 全 可 以 在 服务 器 对 该 
字符 的 回 显 中 撒 带 返回 。 


然而 对 于 其 服务 器 不 在 相反 方向 产生 数据 以 便携 带 ACK 的 客户 来 
说 ，ACK 延 滞 算 法 存在 问题 。 这 些 客 户 可 能 觉察 到 明显 的 延迟 ， 因 为 
客户 TCP 要 等 到 服务 器 的 ACK 延 沾 定 时 器 超时 才 继 续 给 服务 器 发 送 数 
据 。 这 些 客户 需要 一 种 禁止 Nagle 算 法 的 方法 ，TCP_NODELAY 选 项 就 
能 起 到 这 个 作用 。 
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另 一 类 不 适合 使 用 Nagle 算 法 和 TCP 的 ACK 延 滞 算 法 的 客户 是 以 若 
于 小 片 数 据 向 服务 器 发 送 单个 逻辑 请 求 的 客户 。 举 例 来 说 ， 假 设 某 个 
客户 回 它 的 服务 器 发 送 一 个 400 字 贡 的 请 求 ， 该 请 求 由 一 个 4 字 节 的 请 
求 类 型 和 后 跟 的 396 字 节 的 请 求 数据 构成 。 如 果 客 户 先 执行 一 个 4 字 节 
的 write 调用 ， 再 执行 一 个 396 字 贡 的 write 调用 ， 那 么 第 二 个 写 操作 
的 数据 将 一 直 等 到 服务 器 的 TCP 确 认 了 第 一 个 写 操作 的 4 字 节 数据 后 才 
由 客户 的 TCP 发 送出 去 。 而 且 ， 由 于 服务 器 应 用 进程 难以 在 收 到 其 余 
396 字 节 前 对 先 收 到 的 4 字 节 数据 进行 操作 ， 服 务 器 的 TCP 将 拖延 该 4 字 
节 数 据 的 ACK (也 就 是 说 ， 和 暂时 不 会 有 从 服务 器 到 客户 的 任何 数据 可 
以 撒 带 这 个 ACK) 。 有 三 种 办 法 修正 这 类 客户 程序 。 

(1) 使 用 writev (14.47) 而 不 是 两 次 调用 write。 对 于 本 例 
子 ， 单 个 writev 调 用 最 终 导致 调用 TCP 输 出 功能 一 次 而 不 是 两 次 ， 其 
结果 是 只 产生 一 个 TCP 分 节 。 这 是 首选 的 办 法 。 


(2) 把 前 4 子 节 的 数据 和 后 396 字 节 的 数据 复制 到 单个 缓冲 区 中 ， 然 
后 对 该 缓冲 区 调用 一 次 write。 


(3) 设置 TcP_NODELAY 套 接 字 选项 ， 继 续 调 用 write 两 次 。 这 是 
最 不 可 取 的 办 法 ， 而 且 有 损 于 网 络 ， 通 常 不 应 该 考虑 。 


习题 7.8 和 习题 7.9 将 继续 讨论 本 例子 。 


221 


710 ”SCTP 套 接 字 选 项 


数目 相对 较 多 的 SCTP 套 接 字 选项 (编写 本 书 时 为 17 个 ) 反映 出 
SCTP 为 应 用 程序 开发 人 员 提 供 了 较 细 粒度 的 控制 能 力 。 它 们 的 级 别 
(上 getsockopt 和 setsockopt 函 数 的 第 二 个 参数 ) 为 
IPPROTO_SCTP ° 


若干 用 于 获取 SCTP 相 关 信 息 的 选项 要 求 把 一 些 数据 〈 例 如 关联 ID 
和 /或 对 端 地 址 ) 传递 进 内 核 。 尽 管 get sockopt 的 一 些 实现 支持 进程 
与 内 核 之 间 的 双 辣 数据 传递 ， 然 而 并 非 所 有 实现 都 能 做 到 。SCTP 的 
API 为 此 定义 了 一 个 sctp_opt_info 函 数 (9.11 节 ) 以 隐藏 这 个 差 
异 。 在 getsockopt 文 持 双 辣 数据 传递 的 系统 上 ，sctp_opt_info 
只 是 getsockopt 的 一 个 简单 外 包 。 在 其 他 系统 上 ， 它 执行 所 需 的 操 
作 ， 其 中 可 能 用 到 定制 的 ioct1 或 某 个 新 的 系统 调用 。 当 获取 这 些 选 
项 时 ， 我 们 建议 总 是 使 用 sctp_opt_info 以 便 移 植 。 图 7-2 中 这 些 选 
项 被 标 上 了 七 首 记 号 (t) ， 它 们 包括 SCTP_ASSOCINF0O、 
SCTP_GET_PEER_ADDR_INFO ` SCTP_PEER_ADDR_PARAMS ` 
SCTP_PRIMARY_ADDR ` 
SCTP RTOINFOZISCTP. STATUS ° 


7.10.1 SCTP ADAPTION LAYER 套 接 字 选项 


在 天 联 初 始 化 期 间 ， 任 何 一 个 端点 都 可 能 指定 一 个 适 配 层 指示 
(adaption layer indication) 。 这 个 指示 是 一 个 32 位 无 符号 整数 ， 可 由 
两 端的 应 用 进程 用 来 协调 任何 本 地 应 用 适 配 层 。 本 选项 允许 调用 者 获 
取 或 设置 将 由 本 端 提 供给 对 端的 适 配 层 指示 。 


获取 本 选项 的 值 时 ， 调 用 者 得 到 的 是 本 地 套 接 字 将 提供 给 所 有 未 
D o 要 获取 对 端的 适 配 层 指示 ， 应 用 进程 必须 预订 适 配 层 事 


7.10.2 SCTP_ASSOCINFO## FAM 


本 套 接 字 选项 可 用 于 以 下 三 个 目的 : (a) 获取 关于 某 个 现 有 关联 
的 信息 ， (b) 改变 某 个 已 有 关联 的 参数 ， (c) 为 未 来 的 关联 设置 默 
认 信 息 。 在 获取 关于 某 个 现 有 关联 的 信息 时 ， 应 该 使 用 
sctp_opt_info 函 数 而 不 是 get sockopt 函 数 。 作 为 本 选项 的 输入 
的 是 sctp_assocparams 结 构 。 


struct sctp_assocparams { 
sctp_assoc_t sasoc_assoc_id; 
sasoc_asocmaxrxt; 
sasoc_number_peer_destinations; 


sasoc_peer_rwnd; 
sasoc_local_rwnd; 
sasoc_cookie_life; 


这 些 字段 的 含义 如 下 所 述 。 
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。Sasoc_assoc_id 存 放 待 访问 关联 的 标识 〈 即 关联 ID) 。 如 果 在 
调用 setsockopt 时 置 0 本 字段 ， 那 么 sasoc_asocmaxrxt 和 
sasoc_cookie_1ife 字 段 代 表 将 作为 默认 信息 设置 在 相应 余 接 
字 上 的 值 。 如 果 在 调用 getsockopt 时 提供 关联 ID， 返 回 的 就 是 
特定 于 该 关联 的 信息 ， 否 则 如 果 置 0 本 字段 ， 返 回 的 就 是 默认 的 端 
点 设置 信息 。 

。 Sasoc_asocmaxrxt 存 放 的 是 某 个 关联 在 已 发 送 数据 没有 得 到 
确认 的 情况 下 党 试 重 传 的 最 大 次 数 。 达 到 这 个 次 数 后 SCTP 放 弃 重 
È, 报告 用 户 对 端 不 可 用 ， 然 后 关闭 该 关联 。 

。Sasoc_number_peer_destinations 存 放 对 端 目的 地 址 数 。 
它 不 能 设置 ， 只 能 获取 。 

e Sasoc_peer_rwnd 存 放 对 端的 当前 接收 窗口 。 该 值 表示 还 能 发 
送 给 对 端的 数据 字 万 总 数 。 本 字段 是 动态 的 ， 本 地 端点 发 送 数据 
时 其 值 减 小 ， 外 地 应 用 进程 读 取 已 经 收 到 的 数据 时 其 值 增 大 。 它 
不 能 设置 ， 只 能 获取 。 

e Sasoc_1ocal_rwnd 存 放 本 地 SCTP 协 议 栈 当前 通告 对 端的 接收 
窗口 。 本 字段 也 是 动态 的 ， 并 受 SO_SNDBUF 套 接 字 选项 影响 。 它 
不 能 设置 ， 只 能 获取 。 


e sasoc_cookie_1life 存 放送 给 对 端的 状态 cookie 以 毫秒 为 单位 
的 有 效 期 。 为 了 防护 重 放 (replay) 攻击 ， 每 个 随 INITACK 块 送 
给 对 端的 状态 cookie 都 关联 有 一 个 生命 期 。 原 本 为 60 00028 FASE 
命 期 默认 值 可 以 通过 置 sasoc_assoc_id 为 0 并 设置 本 选项 加 以 
修改 。 


我 们 将 在 23.11 市 给 出 为 提升 性 能 而 调整 Sasoc_asocmaxrxt 字 
段 值 的 建议 。sasoc_ cookie _1ife 字 段 值 可 以 降低 以 便 更 好 地 防 
护 cookie 重 放 攻 击 ， 不 过 这 么 一 来 ， 针 对 网 络 延 迟 的 健壮 性 在 关联 发 
起 期 间 有 所 降低 。 其 他 字段 可 以 用 于 调试 程序 。 


7.10.3 SCTP_AUTOCLOSE## kM 


本 选项 允许 我 们 获取 或 设置 一 个 SCTP 端 点 的 目 动 关 闭 时 间 。 目 动 
天 闭 时 间 是 一 个 SCTP 关 联 在 空 内 时 保持 打开 的 秒 数 。SCTP 协 议 栈 把 
空闲 定义 为 一 个 关联 的 两 个 端点 都 没有 在 发 送 或 接收 用 户 数据 的 状 
仿 。 目 动 关闭 功能 默认 是 禁止 的 。 


自动 关闭 选项 意 在 用 于 一 到 多 式 SCTP 接 口 (第 9 章 ) 。 当 设置 本 
选项 时 ， 传 递 给 它 的 整数 值 为 某 个 空 风 关联 被 目 动 天 闭 前 的 持续 秒 
数 ， 值 为 0 表示 蔡 止 目 动 关闭。 本 远 项 仅仅 影响 由 相应 本 地 端点 将 来 创 
建 的 关联， 已 有 关联 保持 它们 的 现行 设置 不 变 。 


目 动 关闭 功能 可 由 服务 器 用 来 强制 关闭 空 几 的 关联 ， 服 务 右 无 需 
为 此 维护 额外 的 状态 。 使 用 本 特性 的 服务 器 应 该 仔细 估算 它 的 所 有 关 
c mH 。 目 动 天 闭 时 间 设 置 过 短 会 导致 关联 的 过 早 头 
H] ° 
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7.10.4 SCTP DEFAULT SEND PARAM 套 接 字 选 
项 

SCTP 有 许多 可 选 的 发 送 参 数 ， 它 们 通常 作为 辅助 数据 传递 ， 或 者 
由 sctp_sendmsg 函 数 使 用 (sctp_sendmsg 通 常 作为 库 函 数 实现 ， 
它 玲 用户 传递 辅助 数据 ) 。 和 希望 发 送 大 量 消息 上 且 所 有 消息 具有 相同 发 


送 参 数 的 应 用 进程 可 以 使 用 本 选项 设置 默认 参数 ， 从 而 避免 使 用 辅助 
数据 或 执行 sctp_sendmsg 调 用 。 本 选项 接受 sctp_sndrcvinfo 结 
构 作 为 输入 。 


struct sctp_sndrcvinfo { 
u inti16 t sinfo stream; 
u inti16 t sinfo ssn; 
u inti16 t sinfo flags; 
u int32 t sinfo ppid; 


u int32 t sinfo context; 

u int32 t sinfo timetolive; 
u int32 t sinfo tsn; 

u int32 t sinfo cumtsn; 

sctp assoc t sinfo assoc id; 


}; 


些 字段 的 含义 如 下 所 述 。 


e sinfo_stream 指 定 新 的 默认 流 ， 所 有 外 出 消息 将 被 发 送 到 该 流 
中 。 

e sinfo_ssn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 或 
sctp_recvmsg 函 数 接收 请 轧 时 ， 本 字段 将 存放 由 对 端 置 于 
SCTP DATA 块 的 流 序号 (stream sequence number, SSN) 字段 中 
的 值 。 


e Sinfo_flags 指 定 新 的 默认 标志 ， 它 们 将 应 用 于 所 有 消 轧 发 
送 。 图 7-16 列 出 了 这 些 标 志 值 。 


MSS_ABCRT 
MS3 ADZR OVER 


ja PEPER Sees rm. 
SCTE TIRE Be eRe 


MSG_EOF PS SCAG Gn a ER ACIS ib it FE 

MSS_PR_BUFFER on ABS AP ER tE COM ay Ai ALS SEAPORT Cprotile). 
MSG_PR_SCTE HRANA ea Bor OY EERE TE (OnE Ay H 09i. 

M83 UNCRDSRED | 指 室 本 消 如 使 用 无 序 的 消息 传递 驱 务 。 


图 7-16 sinfo_flags 字 段 允许 的 SCTP 标 志 值 


e sinfo_ppid 指 定 将 置 于 所 有 人 外 出 消 轧 中 的 SCTP 滔 伍 协 议 标 识 
(payload protocol identifier) 字段 的 默认 值 。 
e Sinfo_context 指 定 新 的 默认 上 下 文 。 本 字段 是 个 本 地 标志 ， 
用 于 检索 无 法 发 送 到 对 端的 消息 。 


e Sinfo_timetolive 指 定 新 的 默认 生命 期 ， 它 将 应 用 于 所 有 消 
息 发 送 。SCTP 协 议 栈 使 用 本 字段 判定 何 时 丢弃 (尚未 执行 首次 传 
TARE) 因 过 度 拖延 而 失效 的 外 出 消息 。 如 果 同 一 关联 的 两 个 端点 
都 支持 部 分 可 靠 性 (partial reliability) 选项 ， 那 么 本 生命 期 也 用 
于 指定 完成 首次 传送 后 的 消息 的 继续 有 歼 期 。 
sinfo_tsn 在 设置 默认 发 送 参数 时 被 包 略 。 当 使 用 recvmsg 或 
sctp_recvmsg 函 数 接收 消息 时 ， 本 字段 将 存放 由 对 端 置 于 
SCTP DATA 块 的 传输 序号 (transport sequence number, TSN) ^ 
段 中 的 值 。 

sinfo_cumtsn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 
或 sctp_recvmsg 函 数 接收 消息 时 ， 本 字段 将 存放 本 地 SCTP 协 
议 栈 已 与 对 端 挂 钓 的 当前 囚 积 TSN 。 
sinfo_assoc_id 指 定 请 求 者 希望 对 其 设置 默认 参数 的 天 联 标 
识 。 对 于 一 到 一 式 套 接 字 ， 本 字段 被 名 上 略 。 


注意 ， 所 有 默认 设置 只 影响 没有 指定 sctp_sndrcvinfo 结 构 的 
消息 发 送 。 指 定 了 该 结构 的 消息 发 送 (例如 带 辅助 数据 的 
sctp_sendmsg 或 sendmsg 函 数 调用 ) 将 覆 写 默认 设置 。 除 了 进行 默 
认 设 置 ， 通 过 使 用 sctp_opt_info 函 数 ， 本 选项 也 可 用 于 获取 当前 
的 默认 设置 。 


7.10.5 SCTP DISABLE FRAGMENTS EE 
项 

SCTP 通 常 把 太 大 而 不 适合 置 于 单个 SCTP 分 组 中 的 用 户 消息 分 害 
成 多 个 DATA 块 。 开 启 本 选项 将 在 发 送 端 禁止 这 种 行为 。 被 禁止 后 ， 
SCTP 将 为 此 向 用 户 返 送 EMSGSIZE 错 误 ， 并 且 不 发 送 用 户 消息 。 
SCTP 的 默认 行为 与 本 选项 被 禁止 等 效 ， 也 就 是 说 ，SCTP 通 名 会 对 用 
户 消息 执行 分 片 。 


那些 布 望 目 己 控制 消 居 大 小 的 应 用 进程 可 以 使 用 本 选项 ， 以 便 确 
保 每 个 用 户 应 用 消息 都 适合 置 于 单个 IP 分 组 中 。 开 局 了 本 选项 的 应 用 
进程 必须 准备 好 处 理 出 错 情况 ( 即 消息 过 大 ) ， 它 们 既 可 以 提供 应 用 
层 的 消息 分 片 机 制 ， 也 可 以 改 用 较 小 的 消 轧 。 


7.10.66 SCTP EVENTS## EI 


本 套 接 字 选 项 允许 调用 者 获取 、 开 启 或 禁止 各 种 SCTP 通 知 。 
SCTP 通 知 是 由 SCTP 协 议 栈 发 送 给 应 用 进程 的 消息 。 这 种 消息 就 像 普 
通 消息 那么 读 取 ， 只 需 把 recvmsg 函 数 的 msghdr 结 构 参 数 中 的 
msg_flags 字 上 段 设置 为 MSG_NOTIFICATION。 不 准备 使 用 recvmsg 
或 sctp_recvmsg 函 数 的 应 用 进程 不 应 该 开启 事件 通知 功能 。 使 用 本 
选项 传递 一 个 sctp_event_subscribe 结 构 就 可 以 预订 8 类 事件 的 通 
ee ee ee 
Wi 
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struct sctp event subscribe ( 
u int8 t sctp data io event; 
u int8 t sctp association event; 
u int8 t sctp address event; 
u int8 t sctp send failure event; 


u int8 t sctp peer error event; 

u int8 t sctp shutdown event; 

u int8 t sctp partial delivery event; 
u int8 t sctp adaption layer event; 


}; 


图 7-17 汇 总 了 这 些 事件 。 我 们 将 在 9.14 世 继续 讨论 事件 通知 。 


sctp_data_io event 开局/ 禁止 每 次 recumsg 调 用 返回 sc=p sndrevinfo. 
sctp_association_event FE BS ESE IPE att D EE SE I. 

SOrD enean event 开启 / 柴 止 地 址 素 件 遂 夭 ， 

sctp send failure event Fsh E ee a bg ut (FO 4. 

wctp puer wELGE Venu FE np Aib x) $n BS Hn SF a 

gctp shutdown event JEU LIS LEGAS i. 

sctp partial delive-y event 开户 /禁止 部 分 递送 API 事 性 通知 。 

sctp *dapt:on layer event JEn dips SL EC EHI 


图 7-17 sctp_event_subscribe 结 构 的 各 个 字段 


7.10.7 SCTP GET PEER ADDR INFOZEBECEjE 
项 
本 选项 仅 用 于 获取 某 个 给 定 对 端 地 址 的 相关 信息 ， 包 括 拥塞 窗 

` 平滑 化 后 的 RTT 和 MTU 等 。 作 为 本 选项 的 输入 的 是 
nes paddrinfo 结 构 。 调 用 者 在 其 中 的 spinfo_address 字 段 填 
入 待 查询 的 对 端 地 址 ， 并 且 为 了 便于 移植 ， 应 该 使 用 
sctp_opt_infoWam 4 eget sockopti ° sctp paddrinfo 
结构 的 格式 如 下 : 


struct sctp_paddrinfo { 
sctp_assoc_t spinfo_assoc_id; 
struct sockaddr_storage spinfo_address; 
int32_t spinfo_state; 


u_int32_t spinfo_cwnd; 
u_int32_t spinfo_srtt; 
u_int32_t spinfo_rto; 
u_int32_t spinfo_mtu; 


, 
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e spinfo_assoc_id 存 放 关 联 标识 ， 它 和 “communication up” GH 
信 开 始 ) 即 SCTP_COMM_UP 通 知 中 提供 的 信息 一 致 。 几 乎 所 有 
SCTP 操 作 都 可 以 使 用 这 个 唯一 的 值 作为 相应 关联 的 简明 标识 。 

e Spinfo_address 由 调用 者 设置 ， 用 于 告知 SCTP 套 接 字 想 要 获 
取 哪 一 个 对 端 地 址 的 信息 。 调 用 返回 时 其 值 不 应 该 改变 。 

e spinfo_state 存 放 图 7-18 所 示 的 一 个 或 多 个 常 值 。 


SCIP_ACTIVE 地 址 活跃 且 可 达 。 


SCTP INACTIVE 地 址 当前 不 可 过 ，。 
SCTP_ADDR_UNCONFIRMED 地 址 尚未 由 心 搏 或 用 户 数据 证 实 。 


图 7-18 ”SCTP 对 端 地 址 状态 


其 中 未 证 实地 址 (unconfirmed address) 是 一 个 对 端 已 作为 有 效 地 

址 列 出 ， 而 本 地 SCTP 尚 不 能 证 实 对 端 确实 持 有 它 的 地 址 。 当 送 往 某 个 

地 址 的 心 捕 或 用 户 数据 得 到 对 端 确认 时 ， 本 地 SCTP 端 点 就 可 以 证 实 该 

地 址 确实 为 对 端 所 有 了 。 注 意 ， 未 证 实 的 地 址 并 没有 有 效 的 重 传 超时 

(retransmission timeout, RTO) 值 。 活 跃 地 址 则 表示 被 认为 是 可 用 的 
地 址 。 


e Spinfo_cwnd 表 示 为 所 指定 对 端 地 址 维护 的 当前 拥塞 窗口 。 
| Stewart and Xie 2001] 第 177 页 讲述 了 如 何 管 理 cwnd 值 。 
。 S oa rtt 表 示 束 所 指定 对 端 地 址 而 言 的 平 请 化 后 RTT 的 当前 
估计 值 。 
。 Spinfo_rto 表 示 用 于 所 指定 对 端 地 址 的 当前 重 传 超 时 值 。 
e Spinfo_mtu 表 示 由 路 径 MTU 发 现 功能 发 现 的 通 往 所 指定 对 端 地 
址 的 路 径 MTU 的 当前 值 。 


本 选项 的 一 个 有 意思 的 用 途 是 : 把 一 个 下地 址 结构 转换 成 一 个 可 
用 于 其 他 调用 的 关联 标识 。 我 们 将 在 第 23 草 中 阐述 这 个 套 接 字 选 项 的 
用 法 。 另 一 个 可 能 用 途 是 : 由 应 用 进程 跟 踩 一 个 多 答对 端 主 机 每 个 地 
址 的 性 能 ， 并 把 相应 关联 的 主 目的 地 址 更 新 为 其 中 性 能 最 佳 的 一 个 。 
这 些 值 也 同样 有 利于 日 志 记录 和 程序 调试 。 


7.10.8 SCTP I WANT MAPPED V4 ADDRE£S 
字 选 项 


这 个 标志 套 接 字 选项 用 于 为 AF_INET6 类 型 的 套 接 字 开启 或 禁 
IPv4 映 射 地 址 ， 其 默认 状态 为 开启 。 注 意 ， 本 选项 开启 时 ， 所 有 IPv4 
地 址 在 送 往 应 用 进程 之 前 将 被 映射 成 一 个 IPv6 地 址 。 本 选项 禁止 时 ， 
SCTP 套 接 字 不 会 对 IPv4 地 址 进行 映射 ， 而 是 作为 Sockaddr_in 结 构 
直接 传递 。 
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7.10.9 SCTP_INITMSG 套 接 字 选 项 


As fe F TTA TRARRE FS SCTP RRF TE AGATNITTH AT 
所 用 的 默认 初始 参数 。 作 为 本 选项 的 输入 的 是 sctp_initmsg 结 构 ， 
其 定义 如 下 : 
struct sctp_initmsg { 


uinti6_t sinit num ostreams; 
uinti16 t sinit max instreams; 


uinti16 t sinit max attempts; 
uint16 t sinit max init timeo; 


这 些 字段 的 含义 如 下 所 述 。 


sinit_num_ostreams 表 示 应 用 进程 想 要 请 求 的 外 出 SCTP 流 的 
数目 。 该 值 要 等 到 相应 关联 完成 初始 握手 后 才 得 到 确认 ， 而 且 可 
能 因为 对 端的 限制 而 向 下 协调 。 
sinit_max_instreams 表 示 应 用 进程 准备 允许 的 外 来 SCTP 尝 
的 最 大 数目 。 如 果 该 值 大 于 SCTP 协 议 栈 所 支持 的 最 大 允许 流 数 ， 
那么 它 将 被 改 为 这 个 最 大 数 。 
sinit_max_attempts 表 示 SCTP 协 议 栈 应 该 重 传 多 少 次 初始 
INIT 消 息 才 认为 对 端 不 可 达 。 
sinit_max_init_timeo 表 示 用 于 INIT 定 时 器 的 最 大 RTO 值 。 
在 初始 定时 器 进行 指数 退 避 期 间 ， 该 值 将 替代 RT0 .max 作 为 重 传 
RTO 极 限 。 该 值 以 毫秒 为 单位 。 


注意 ， 当 设置 这 些 字段 时 ，SCTP 将 忽略 其 中 的 任何 0 值 。 一 到 多 
式 套 接 字 (9.78) 的 用 户 在 关联 隐 性 建立 期 间 也 可 能 在 辅助 数据 中 传 


递 一 个 sctp_initmsg 结 构 。 


7.10.10 ”SCTP_MAXBURST 套 接 字 选项 


本 套 接 字 选项 允许 应 用 进程 获取 或 设置 用 于 分 组 发 送 的 最 大 狂 发 
大 小 (maximum burst size) 。 当 SCTP 加 对 端 发 送 数据 时 ， 一 次 不 能 发 
送 多 于 这 个 数目 的 分 组 ， 以 免 网 络 被 分 组 济 没 。 有 具体 的 SCTP 实 现 有 两 
种 方法 应 用 这 个 限制 (1) 把 拥塞 窗口 缩减 为 当前 飞行 大 小 (current 
flight size) 加 上 最 大 狼 发 大 小 与 路 径 MTU 的 乘积 : (2) 把 该 值 作为 
一 个 独立 的 微观 控制 量 ， 在 任意 一 个 发 送 机 会 最 多 只 发 送 这 个 数目 的 


分 组 。 
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7.10.11 SCTP MAXSEGH# JI 


本 套 接 字 选 项 允许 应 用 进程 获取 或 设置 用 于 SCTP 分 片 的 最 大 片段 
大 小 (maximum fragment size) 。 本 选项 和 7.9 节 中 讲述 的 TCP 选 项 
TCP_MAXSEG 类 似 。 


当 某 个 SCTP 发 送 端 从 其 应 用 进程 收 到 一 个 大 于 这 个 大 小 的 请 妃 
时 ， 它 将 把 该 消息 分 割 成 多 个 块 ， 以 便 分 别传 送 到 对 端 。 SCTP 
通常 使 用 的 这 个 大 小 是 通达 它 的 对 端的 所 有 路 径 各 自 的 MTU 中 的 最 小 
值 (每 条 路 径 对 应 一 个 对 端 地 址 ) 。 设 置 本 选项 可 以 把 这 个 大 小 降低 
到 所 指定 的 值 。 注 意 ，SCTP 可 能 以 比 本 选项 所 请 求 的 值 更 小 的 边界 分 
割 消息 。 当 通达 对 端的 某 条 路 径 的 MITU 变 得 比 本 选项 所 请 求 的 值 还 要 
小 时 ， 这 种 偏 小 的 分 割 就 会 发 生 。 


最 大 片段 大 小 是 一 个 端点 范围 的 设置 ， 在 一 到 多 式 接口 中 ， 它 可 
能 影响 不 止 一 个 关联 。 


7.10.12 SCTP NODELAYS# JJ 


开启 本 选项 将 禁止 SCTP 的 Nagle 算 法 。 本 选项 默认 关闭 (也 就 是 
说 默认 情况 下 Nagle 算 法 是 启动 的 ) 。SCTP 的 Nagle 算 法 与 TCP 的 Nagle 
算法 工作 原理 相同 ， 区 别 在 于 前 者 对 付 多 个 DATA 块 ， 后 者 对 付 单 个 
流 上 的 字 节 。 关 于 Nagle 算 法 的 讨论 见 TCP_NODELAY。 


7.10.13 SCTP_PEER_ADDR_PARAMS 套 接 字 选 
项 

本 套 接 字 选 项 允许 应 用 进程 获取 或 设置 关于 某 个 关联 的 对 端 地 址 
的 各 种 参数 。 作 为 本 选项 的 输入 的 是 sctp_paddrparams 结 构 。 调 
用 者 必须 在 该 结构 中 填写 关联 标识 和 /或 一 个 对 端 地 址 ， 其 定义 如 下 ; 


struct sctp_paddrparams { 
sctp_assoc_t spp_assoc_id; 


struct sockaddr_storage spp_address; 
u_int32_t spp_hbinterval; 

u_inti6_t spp pathmaxrxt; 

i 


这 些 字 段 的 含义 如 下 所 述 。 


e spp_assoc_id 存 放 在 其 上 获取 或 设置 参数 信息 的 关联 标识 。 如 
AVE NO, 那么 所 访问 的 是 端点 默认 参数 ， 而 不 是 特定 于 关联 的 
参数 。 

。Sspp_address 指 定 其 参数 待 获取 或 待 设置 的 对 端 了 地址 。 如 果 
spp_assoc_id 字 段 值 为 0， 那 么 本 字段 被 忽略 。 
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。Spp_hbinterval 表 示 心 搏 间隔 时 间 。 设 置 该 值 为 SCTP_NO_HB 
将 禁止 心 捕 ， 为 SCTP_ISSUE_HB 将 按 请 求 心 捕 ， 为 其 他 值 则 将 
把 心 捕 间隔 重 置 为 以 毫秒 为 单位 的 新 值 。 设 置 端点 默认 参数 时 ， 
不 能 使 用 SCTP_ISSUE_HB 这 个 值 。 

e spp_pathmaxrxt 表 示 在 声明 所 指定 对 端 地 址 为 不 活跃 之 前 将 尝 
试 的 重 传 次 数 。 当 主 目的 地 址 被 声明 为 不 活跃 时 ， 另 外 一 个 对 端 
地 址 将 被 选 为 主 目的 地 址 。 


7.10.14 SCTP PRIMARY ADDR 套 接 字 选项 


本 套 接 字 选 项 用 于 获取 或 设置 本 地 端点 所 用 的 主 目的 地 址 。 主 目 
的 地 址 是 本 端 发 送 给 对 端的 所 有 消息 的 默认 目的 地 址 。 作 为 本 选项 的 
输入 的 是 sctp_setprim 结 构 。 调 用 者 必须 在 该 结构 中 填写 关联 标 
识 ， 若 是 设置 主 日 的 地 址 则 再 填写 一 个 将 用 作 主 目的 地 址 的 对 端 地 
址 ， 其 定义 如 下 : 


struct sctp_setprim { 
sctp_assoc_t ssp_assoc_id; 


struct sockaddr_storage ssp_addr; 


}; 


这 些 字 段 的 含义 如 下 所 述 。 


e ssp_assoc_id 存 放 在 其 上 获取 或 设置 当前 主 目的 地 址 的 关联 标 
识 。 对 于 一 到 一 式 套 接 字 ， 本 字段 被 忽略 。 

e ssp_addr 指 定 主 目的 地 址 〈 主 目的 地 址 必须 是 一 个 属于 对 端的 
地 址 ) 。 使 用 setsockopt 函 数 设 置 本 选项 时 ， 本 字段 为 请 求 者 
要 求 设置 的 主 目的 地 址 的 新 值 ， 使 用 getsockopt 函 数 获 取 本 选 
项 时 ， 本 字段 为 当前 所 用 主 目的 地 址 的 值 。 


注意 ， 在 只 有 一 个 本 地 地 址 与 之 关联 的 一 到 一 式 套 接 字 上 获取 本 
选项 的 值 跟 直 接 调 用 getsockname 是 一 样 的 。 


7.10.15 ”SCTP_RTOINFO 套 接 字 选项 


本 套 接 字 选项 用 于 获取 或 设置 各 种 RTO 信 息 ， 它 们 既 可 以 是 关于 
某 个 给 定 关 联 的 设置 ， 也 可 以 是 用 于 本 地 端点 的 默认 设置 。 为 了 便于 
移植 ， 当 获取 信息 时 ， 调 用 者 应 该 使 用 sctp_opt_info 函 数 而 不 是 
getsockopt 函 数 。 作 为 本 选项 的 输入 的 是 sctp_rtoinfo 结 构 ， 其 
定义 如 下 : 


struct sctp_rtoinfo { 
sctp_assoc_t srto_assoc_id; 
uint32_t srto_initial; 


uint32_t srto_max; 
uint32_t srto_min; 


}; 


N 
W 
© 


这 些 字 段 的 含义 如 下 所 述 。 


e srto_assoc_id 存 放 感 兴趣 天 联 的 标识 或 0°。 (BAO, AK 
数 调 用 会 对 系统 的 默认 参数 产生 影响 。 

e srto_initial 存 放 用 于 对 端 地 址 的 初始 RTO 值 。 初 始 RTO 值 在 
癌 对 端 发 送 INIT 块 时 使 用 。 该 值 以 毫秒 为 单位 有 旦 默认 值 为 3 000。 

e srto_max 存 放 在 更 新 重 传 定时 絮 时 使 用 的 最 大 RTO 值 。 如 果 更 
狐 后 的 RTO 值 大 于 这 个 RTO 最 大 值 ， 那 就 把 这 个 最 大 值 作为 新 的 
RTO 值 。 该 值 默 认为 60 000 ° 


e srto_min 存 放 在 局 动 重 传 定时 器 时 使 用 的 最 小 RTO 值 。 任 何 时 
候 RTO 定 时 器 一 旦 更 改 ， 殊 对 照 这 个 RTO 最 小 值 检查 新 值 。 如 采 
A um PEAN e  MBTE ABTAIRIOLE ° ATER 
为 1 000 ° 


srto_initial、srto_max 或 srto_min 值 为 0 表示 当前 设 定 的 
默认 值 不 应 改变 。 所 有 时 间 值 都 以 毫秒 为 单位 。 我 们 将 在 23.11 节 给 出 
为 提升 性 能 而 设置 这 些 定 时 器 值 的 指导 。 


7.10.16 SCTP_SET_PEER_PRIMARY_ADDR& 
接 字 选项 


设置 本 套 接 字 选 项 导致 发 送 一 个 消息 : 请 求 对 端 把 所 指定 的 本 地 
地 址 作为 它 的 主 目的 地 址 。 作 为 本 选项 的 输入 的 是 
sctp_setpeerprim 结 构 。 调 用 者 必须 在 该 结构 中 填写 天 联 标 识 和 
一 个 请 求 对 端 标 为 其 主 目的 地 址 的 本 地 地 址 。 这 个 本 地 地 址 必须 已 经 
绑 定 在 本 地 端点 。sctp_setpeerprim 结 构 的 定义 如 下 : 


struct sctp_setpeerprim { 
sctp_assoc_t sspp_assoc_id; 


struct sockaddr_storage sspp_addr; 


i 


这 些 字段 的 含义 如 下 。 


。sspp_assoc_id 指 定 在 其 上 想 要 设置 主 日 的 地 址 的 关联 标识 。 
对 于 一 到 一 式 套 接 字 ， 本 字段 被 名 上 略 。 
e sspp_addr 存 放 想 要 对 端 设置 为 主 目 的 地 址 的 本 地 地 址 。 
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本 特性 是 可 选 的 ， 只 有 两 端 均 支持 才能 运作 。 如 果 本 地 端点 不 支 
持 本 特性 ， 那 就 给 调用 者 EOPNOTSUPP 返 回 错 误 。 如 果 远 程 端点 不 支 
持 本 特性 ， 那 就 返回 调用 者 EINVAL 错 误 。 另 外 注意 ， 本 套 接 字 选 项 
只 能 设置 ， 不 能 获取 。 


7.10.17 SCTP_STATUS 套 接 字 选项 


本 套 接 字 选项 用 于 获取 某 个 SCTP 关 联 的 状态 。 为 了 便于 移植 ， 调 
用 者 应 该 使 用 sctp_opt_info 函 数 而 不 是 get sockopt 函 数 。 作 为 
本 选项 的 输入 的 是 sctp_status 结 构 。 调 用 者 必须 在 该 结构 中 填写 
天 联 标识 ， 关 于 这 个 关联 的 信息 将 在 返回 时 被 填写 到 该 结构 的 其 他 字 
段 中 。sctp_status 结 构 的 格式 如 下 : 


struct sctp_status { 
sctp_assoc_t sstat_assoc_id; 
int32_t sstat_state; 
u_int32_t sstat_rwnd; 
u inti16 t sstat unackdata; 


u int16 t sstat penddata; 
u inti16 t sstat instrms; 
u inti16 t sstat outstrms; 
u int32 t sstat fragmentation point; 
struct sctp paddrinfo sstat primary; 


HEE BCA ee XA B ° 


e sstat. assoc. id 存放 关联 标识 。 
。Sstat_state 存 放 图 7-19 所 示 弟 值 之 一 ， 指 出 关联 的 总 体 状态 。 
-8 详细 描述 了 在 关联 建立 或 终止 期 间 ， 一 个 SCTP 端 点 经 历 的 


SCTP_CLOSED 

SCTP_COOKIE_WAIT 

SCTP COCKIE ECKOED xw IET OOKIE 
SCTP ESTABLISHED 关联 已 建立 


SCTP SHUTDOWN PENDING 关联 期 待 发 送 SHUTDOWN 

SCTP SHUTDOWN SENT 关联 已 发 送 SHUTDOWN 

SCTP SHUTDOWN RECEIVED 关联 已 收 到 SHUTDOWN 
SCTP_SHUTDOWN_ACK_SENT 关联 在 等 等 SHUTDOWN-COMPLETE 


图 7-19 SCTP 状态 


sstat_rwnd 存 放 本 地 端点 对 于 对 端 接收 窗口 的 当前 估计 。 

sstat_unackdata 存 放 等 着 对 端 处 理 的 未 确认 DATA 块 数目 。 

。Ssstat_penddata 存 放 本 地 端点 暂 存 并 等 着 应 用 进程 读 取 的 未 读 
DATA 块 数目 。 

。Ssstat_instrms 存 放 对 端 用 于 加 本 端 发 送 数据 的 流 的 数目 。 


。Ssstat_outstrms 存 放 本 端 可 用 于 回 对 端 发 送 数据 的 流 的 数目 。 
。Sstat_fragmentation_point 存 放 本 地 SCTP 端 点 将 其 用 作用 
户 消息 分 割 点 的 当前 值 。 该 值 通常 是 所 有 目的 地 址 的 最 小 MTU ， 
SCTP_MAXSEG 套 接 字 选项 设置 的 更 
sstat_primary 存 放 当 前 主 目的 地 址 。 主 目的 地 址 是 向 对 端 发 
送 数据 时 使 用 的 默认 目的 地 址 。 


这 些 值 可 用 于 诊断 或 确定 会 话 的 特征 。 举 例 来 说 ，10.2 厄 将 介绍 
的 sctp_get_no_strms 函 数 将 使 用 sstat_outstrms 成 员 确定 有 
多 少 外 出 流 可 用 。 偏 低 的 sstat_rwnd 值 和 /或 偏 高 的 
sstat_unackdata 值 可 用 于 判定 对 端的 接收 套 接 字 绥 冲 区 正在 变 
满 ， 这 一 点 又 可 用 作 让 应 用 进程 尽 可 能 降低 发 送 速率 的 信号 。 有 些 应 
用 进程 使 用 sstat_fragmentation_point 减 少 SCTP 不 得 不 创建 的 
片段 数量 ， 办 法 就 是 发 送 较 小 的 应 用 消息 。 


7.11 fcntlERZ 


与 代表 “file control”( 文 件 控制 ) WG FAT, feont lKa íT 
各 种 描述 符 控 制 操作 。 在 讲解 该 函数 及 其 如 何 影响 套 接 字 之 前 ， 我 们 
需要 看 得 远 一 点 。 图 7-20 汇 总 了 由 fcnt1、ioct1 和 路 由 套 接 字 执 行 
的 不 同 操作 。 


VR ER T Evo i 
it wt ft f E 为 (a M 3g wo 型 F SZIFL, U As YNC FLOAS YNC 
Rae + F SEIOWN STIOCSPARFE UE fcrtl 


tk Ey dede ML F GZTOWN veuve | 
kl fepe nr s apps (irs 8 Hz 


RST ERT |__| STOCRTNARE 


JERVIS L1 AE SIOCGIFCCOHF sysctl 
HOKE SIOCIGS] IFxxx | 


ARP 0 x Ser Be T | RTM xxx 
WE FH xe fT SIOCOXRT RTM xx 


图 7-20 fcntl、ioctl 和 路 由 套 接 字 操作 小 结 
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其 中 前 六 个 操作 可 由 任何 进程 应 用 于 套 接 字 ， 接 着 两 个 操作 GE 
口 操 作 ) 比较 少见 ， 不 过 也 是 通用 的 ， 后 两 个 操作 (ARP 和 路 由 表 操 
作 ) 由 诸如 ifconfig 和 route 之 类 管理 程序 执行 。 我 们 将 在 第 17 章 
中 详细 讨论 各 种 ioct1 操 作 ， 在 第 18 章 中 详细 讨论 路 由 套 接 字 。 


执行 前 四 个 操作 的 方法 不 止 一 种 ， 不 过 我 们 在 最 后 一 列 指出 ， 
POSIX 规 定 fcnt1 方 法 是 首选 的 。 我 们 还 指出 ，POSIX 提 供 
sockatmark 函 数 (24.377) 作为 测试 是 否 处 于 带 外 标志 的 首选 方 
法 。 最 后 一 列 空白 的 其 余 操作 没有 被 POSIX 标 准 化 。 

我 们 还 指出 ， 设 置 套 接 字 为 非 阻塞 式 W/O 型 和 信号 驱动 式 W/O 型 的 
前 两 个 操作 ， 历 史上 曾 用 fcnt1 的 FNDELAY 和 FASYNC 命 令 执行 。 
POSIX 定 义 的 是 0_xxx 常 值 。 


fcnt1 函 数 提供 了 与 网 络 编程 相关 的 如 下 特性 。 


。 非 阻塞 式 WO。 通 过 使 用 F_SETFL 命 令 设置 0_NONBLOCK 文 件 状 
态 标志 ， 我 们 可 以 把 一 个 套 接 字 设置 为 非 阻塞 型 。 我 们 将 在 第 16 
章 中 讲述 非 阻塞 式 IO 。 

言 号 驱动 式 WO。 通 过 使 用 F_SETFL 命 令 设置 0_ASYNC 文 件 状 态 

标志 ， 我 们 可 以 把 一 个 套 接 字 设 置 成 一 旦 其 状态 发 生变 化 ， 内 核 

束 产 生 一 个 SIGI0 信 和 号。 我 们 将 在 第 25 章 中 讨论 这 一 点 。 

。F_SETOWN 命 令 人 允许 我 们 指定 用 于 接收 STGI0O 和 SIGURG 信 和 号 的 套 
接 字 属 主 〈 进 程 ID 或 进程 组 ID) 。 其 中 SIGI0 信 和 号 是 套 接 字 被 设 
置 为 信号 驱动 式 VO 型 后 产生 的 (第 25 章 ) ，SIGURG 信 和 号 是 在 新 
的 带 外 数据 到 达 套 接 字 时 产生 的 (第 24 章 ) 。F_GETOWN 命 令 返 
回 套 接 字 的 当前 属 主 。 
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术语 “ 套 接 字 属 主 * 由 POSIX 定 义 ° 历史 上 源 自 Berkeley 的 实现 称 之 
为 “ 套 接 字 的 进程 组 ID”， 因 为 存放 该 ID 的 变量 是 socket 结 构 的 
so_pgid 成 员 (TCPv2 第 438 页 ) ° 


#include <fcntl.h> 


int fcntl(int fd, int cmd, ... /* int arg */ ); 


返回 : 着 成 功 则 取决 


于 cmd， 若 出 错 则 为 -1 


每 种 描述 符 (包括 套 接 字 描 述 符 ) 都 有 一 组 由 F_6ETFL 命 令 获取 
或 由 F_SETFL 命 令 设置 的 文件 标志 。 其 中 影响 套 接 字 描 述 符 的 两 个 标 
+ HE 

TD) KE? 


O NONBLOCK— ——3AE[H3ESXT/O; 
a IKIO e 


后 面 我 们 将 详细 讲述 这 两 个 特性 。 现 在 我 们 只 需 注意 ， 使 用 
fcnt1 开 局 非 阻 蹇 式 1O 的 典型 代码 将 是 : 


O ASYNC 


int flags; 


/* Set a socket as nonblocking */ 


if ( (flags = fcntl(fd, F GETFL, 0)) < 0) 
err_sys("F_GETFL error"); 

flags |= O_NONBLOCK; 

if (fcntl(fd, F SETFL, flags) < 0) 
err sys("F SETFL error"); 


下 面 是 你 可 能 会 遇 到 的 、 倘 单 地 设置 所 期 望 标志 的 代码 : 


/* Wrong way to set a socket as nonblocking */ 
if (fcntl(fd, F SETFL, O NONBLOCK) « 0) 


err sys("F SETFL error"); 


这 段 代码 在 设置 非 阻 塞 标志 的 同时 也 清除 了 所 有 其 他 文件 状态 标 
志 。 设 置 某 个 文件 状态 标志 的 唯一 正确 的 方法 是 : 先 取 得 当前 标志 ， 
与 狐 标 志 风 辑 或 后 再 设置 标志 。 


以 下 代码 关闭 非 阻 塞 标志 ， 其 中 假设 flags 是 由 上 面 所 示 的 
fcnt1 调 用 来 设置 的 : 


flags &= ~O_NONBLOCK; 
if (fcntl(fd, F_SETFL, flags) < 0) 


err_sys("F_SETFL error"); 
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言 号 SIGI0 和 SIGURG 与 其 他 信号 的 不 同 之 处 在 于 ， 这 两 个 信号 
仅 在 已 使 用 F_SETOWN 命 令 给 相关 和 套 接 字 指 派 了 属 主 后 才 会 产生 。 
F_SETOWN 命 令 的 整数 类 型 org 参数 既 可 以 是 一 个 正 整 数 ， 指 出 接收 信 
号 的 进程 ID， 也 可 以 是 一 个 负 整 数 ， 其 绝对 值 指出 接收 信号 的 进程 组 
ID。F_GETOWN 命 令 把 套 接 字 属 主 作 为 fcnt1 函 数 的 返回 值 返 回 ， 它 
既 可 以 是 进程 ID 〈 一 个 正 的 返回 值 ) ， 也 可 以 是 进程 组 ID (一 个 除 -1 
以 外 的 负 值 ) 。 指 定 接收 信号 的 套 接 字 属 主 为 一 个 进程 或 一 个 进程 组 
的 差别 在 于 : 前 者 仅 导 致 单个 进程 接收 信号 ， 而 后 者 则 导致 整个 进程 
组 中 的 所 有 进程 《也许 不 止 一 个 进程 ) 接收 信号。 


使 用 socket 函 数 新 创建 的 套 接 字 并 没有 属 主 。 然 而 如 有 果 一 个 新 
的 套 接 字 是 从 一 个 监听 套 接 字 创 建 来 的 ， 那 么 套 接 字 属 主将 由 已 连接 
套 接 字 从 监听 套 接 字 继承 而 来 《许多 套 接 字 选 项 也 是 这 样 继承 ， 见 
TCPv258 462~463 页 ) 


7.12 ”小结 


套 接 字 选项 从 非常 通用 〈 如 SO_ERROR) 到 非常 专门 (如 IP 首 部 
选项 ) 都 有 。 我 们 可 能 遇 到 的 最 常用 的 选项 是 : SO KEEPALIVE ` 
SO_RCVBUF、SO_SNDBUF 和 SO_REUSEADDR。 其 中 最 后 那个 选项 应 
该 总 是 在 一 个 TCP 服 务 器 进程 调用 bind 之 前 预先 设置 (图 11-12) ° 
S0_BROADCAST 选 项 和 10 个 多 播 套 接 字 选项 仅仅 分别 适用 于 进行 广播 
或 多 播 的 应 用 程序 。 


许多 TCP 服 务 器 设置 S0_KEEPALIVE 套 接 字 选项 以 自动 终止 一 个 
半 开 连接 。 该 选项 的 优点 在 于 它 由 TCP 层 处 理 ， 不 需要 有 一 个 应 用 级 
的 休止 状态 定时 絮 ， 而 它 的 缺点 是 无 法 区 别 客户 主机 船 江 和 到 客户 主 
机 连通 性 的 暂时 丢失 。SCTP 提 供 了 17 个 应 用 程序 用 来 控制 传输 的 套 接 
字 选 项 。SCTP_NODELAY 和 SCTP_MAXSEG 选 项 与 TCP_NODELAY 和 
TCP_MAXSEG 选 项 类 似 ， 并 有 着 相同 的 功能 。 而 其 他 15 个 选项 为 应 用 
e 我 们 将 在 第 23 章 讨论 其 中 许多 选项 


SO_LINGER 套 接 字 选项 使 得 我 们 能 够 更 好 地 控制 cLlose 函 数 返 回 
的 时 机 ， 而 且 人 允许 我 们 强制 发 送 RST 而 不 是 TCP 的 四 分 组 连接 终止 序 
列 。 我 们 必须 小 心 发 送 RST， 因 为 这 么 做 回避 了 TCP 的 TIME_WAIT 状 
态 。 本 套 接 字 选项 许多 时 候 无 法 提供 我 们 所 需 的 信息 ， 这 种 情况 下 应 
用 级 ACK 变 得 必要 。 


每 个 TCP 套 接 字 和 SCTP 套 接 字 都 有 一 个 发 送 缓冲 区 和 一 个 接收 缓 
站 区 ， 每 个 UDP 赛 授 字 都 有 一 个 接收 缓冲 区 。SO_SNDBUF 和 
SO_RCVBUF 套 接 字 选项 允许 我 们 改变 这 些 缓冲 区 的 大 小 。 这 两 个 选项 
最 常见 的 用 途 是 长 胖 管 道上 的 批量 数据 传送 。 长 胖 管 道 是 或 高 带宽 或 
长 延 时 的 TCP 连 接 ， 通 常 使 用 RFC 1323 中 为 高 性 能 定义 的 扩展 。 另 一 
方面 ，UDP 套 接 字 可 能 期 望 增加 接收 缓冲 区 的 大 小 以 允许 内 核 在 应 用 
进程 较 忙 时 排队 更 多 的 数据 报 。 
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习题 


71 写 一 个 输出 默认 TCP 和 UDP 发 送 和 接收 缓冲 区 大 小 的 程序 ， 
并 在 你 有 访问 权限 的 系统 上 运行 该 程序 。 


7.2 ”将 图 1-5 做 如 下 修改 : 在 调用 connect 之 前 ， 调 用 
getsockopt 得 到 套 接 字 接收 缓冲 区 的 大 小 和 MSS， 并 输出 这 两 个 
值 。connect 返 回 成 功 后 ， 再 次 获取 这 两 个 套 接 字 选 项 并 输出 它们 的 
值 。 值 变化 了 吗 ? 为 什么 ? 运行 本 客户 程序 两 个 实例 ， 一 个 连接 到 本 
地 网 络 上 的 一 个 服务 器 ， 另 一 个 连接 到 非 本 地 网 络 上 的 一 个 远程 服务 
LEE 为 什么 ? 你 应 在 你 有 访问 权 的 任何 不 同 主机 上 运行 

uL 


7.3 从 图 5-2 和 图 5-3 的 TCP 服 务 需 程序 以 及 图 5-4 和 图 5-5 的 TCP 容 
户 程序 开始 ， 修 改 客户 程序 的 main 画 数 : 在 调用 exit 之 前 设置 
SO_LINGER 套 接 字 选项 ， 把 作为 其 输入 的 Linger 结 构 中 的 1_onoff 
成 员 设置 为 1，1_1inger 成 员 设置 为 0。 先 启动 服务 器 ， 然 后 启动 客 
户 。 在 客户 上 键入 一 行 或 两 行文 本 以 检验 操作 正常 ， 然 后 键入 EOF 以 
终止 客户 ， 将 发 生 什 么 情况 ? 终止 客户 后 ， 在 客户 主机 上 运行 
netstat， 查 看 套 接 字 是 否 经 历 了 TIME_WAIT 状 态 。 


7.4 假设 有 两 个 TCP 客 户 在 同一 时 间 启 动 ， 都 设置 
SO_REUSEADDR 套 接 字 选项 ， 且 以 相同 的 本 地 卫 地 址 和 相同 的 端口 号 
( 璧 如 说 ，1500) 调用 bind， 但 一 个 客户 连接 到 198.69.10.2 的 端口 
7000， 另 一 个 客户 连接 到 198.69.10.2 (相同 的 IP 地 址 ) 的 端口 8000。 阐 
述 所 出 现 的 竞争 状态 。 


7.5 ”获取 本 书 中 例子 的 源 代码 ( 见 前 言 ) 并 编译 sock 程 序 (C.3 
T) 。 将 你 的 主机 划分 为 三 类 : (1 没有 多 播 文 持 ，(2) 有 多 播 文 持 但 不 
提供 SO_REUSEPORT，(3) 有 多 播 文 持 且 提供 SO_REUSEPORT。 试 着 在 
同一 个 端口 上 启动 sock 程 序 的 多 个 实例 作为 TCP 服 务 器 (-s 命 令 行 选 
项 ) ， 分 别 捆绑 通 配 地 址 、 你 的 主机 的 某 个 接口 地 址 以 及 环 回 地 址 。 
你 需要 指定 SO_REUSEADDR 选 项 〈-A 命 令 行 选项 ) 吗 ? 使 用 netstat 
命令 查看 监听 套 接 字 。 


7.6 ”继续 前 面 的 例子 ， 不 过 启动 的 是 作为 UDP 服务 器 (-u 命 令 行 
选项 ) 的 两 个 实例 ， 捆 绑 相 同 的 本 地 IP 地 址 和 端口 号 。 如 果 你 的 实现 
支持 SO_REUSEPORT， 试 着 用 它 (-T 命 令 行 选项 ) e 


7.7 ping 程序 的 许多 版 本 有 一 个 -d 标 志 用 于 开启 SO_DEBUG 套 接 
字 选 项 ， 这 是 干什么 用 的 ? 

78 ”继续 我 们 在 讨论 TCP_NODELAY 套 接 字 选项 结尾 处 的 例子 。 
假设 客户 执行 了 两 个 write 调用 ;第 一 个 写 4 字 节 ， 第 二 个 写 396 字 
忆 。 另 假设 服务 器 的 ACK 延 滞 时 间 为 100ms， 客 户 与 服务 器 之 间 的 RTT 
为 100ms， 服 务 器 处 理 客户 请 求 的 时 间 为 50ms。 画 一 个 时 间 线 图 展示 
延 滞 的 ACK 与 Nagle 算 法 的 相互 作用 。 


79 假设 设置 了 TCP_NODELAY 套 接 字 选项 ， 重 做 上 个 习题 。 


7.10 ”假设 进程 调用 writev 一 次 性 处 理 完 4 字 太 缓冲 区 和 396 字 六 
缓冲 区 ， 重 做 习题 7.8。 


7.11 i€RFC 1122 |Barden 1989| 以 确定 延 灌 ACK 的 建议 间隔。 
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7.12 ”图 5-2 和 图 5-3 中 的 服务 器 程序 什么 地 方 耗 时 最 多 ? 假设 服务 
器 设 置 了 SO_KEEPALIVE 父 接 字 选 项 ， 而 且 连 接 上 没有 数据 在 交换 ， 
如 采 客 户主 机 裔 并 旦 没有 重启 ， 那 将 发 生 什 么 ? 


7.43 ”图 5-4 和 图 5-5 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 设 
置 了 SO_KEEPALIVE 套 接 字 选项 ， 而 且 连 接 上 没有 数据 在 交换 ， 如 果 
服务 器 主机 裔 泪 且 没有 重启 ， 那 将 发 生 什 么 ? 


7.14 图 5-4 和 图 6-13 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 
设置 了 SO_KEEPALIVE 套 接 字 选项 ， 而 且 连 接 上 没有 数据 在 交换 ， 如 
果 服 务 器 主机 裔 泪 且 没有 重启 ， 那 将 发 生 什 么 ? 

7.15 “假设 客户 和 服务 器 都 设置 了 SO_KEEPALIVE 套 接 字 选项 。 
连接 两 端 维护 连通 性 ， 但 是 连接 上 没有 应 用 数据 在 交换 。 当 保持 存活 
定时 器 每 2 小 时 到 期 时 ， 在 连接 上 有 多 少 TCP 分 节 被 交换 ? 


716 ”几乎 所 有 实现 都 在 头 文 件 <sys/socket.h> 中 定义 了 
SO_ACCEPTCON 常 值 ， 不 过 我 们 没有 讲述 这 个 选项 。 阅 读 |Lanciani 
1996] ， 弄 清 该 选项 为 什么 存在 。 
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@ 待 确认 数据 (outstanding data) 直译 为 未 决 数据 ， 也 就 是 我 们 的 TCP 
已 发 送 但 还 在 等 竺 对 端 确认 的 数据 ， 参 见 RFC 793 图 4， 就 是 其 中 标 为 2 
的 部 分 。 从 酒 义 上 讲 ， 采 用 未 决 一 词 更 确切 些 ， 因 为 其 中 有 “ 旺 ”" 而 “未 
RW RR, “RRNA AIK, “未 决 * 表 示 数 据 尚 未 得 到 确认 © 
采用 待 确 认 一 词 未 能 体现 出 “县 ”的 含义 ， 也 就 是 说 在 发 送 队 列 中 到 抬 
有 没有 发 送 的 数据 也 是 有 答 确 认 的 。 鉴 于 采用 未 决 说 法 略 显 突 邦 ， 本 
书 没有 采用 ; 竺 确认 说 法 的 含义 读者 自明 。 译 者 注 


第 8 章 ” 基 本 UDP 套 接 字 编程 
8.1 概述 


在 使 用 TCP 编 写 的 应 用 程序 和 使 用 UDP 编写 的 应 用 程序 之 间 存 在 
一 些 本 质 差 异 ， 其 原因 在 于 这 两 个 传输 层 之 间 的 差别 : UDP 是 无 连接 
不 可 靠 的 数据 报 协议 ， 非 常 不 同 于 TCP 提 供 的 面向 连接 的 可 靠 字 节 
流 。 然 而 相 比 TCP， 有 些 场合 确实 更 适合 使 用 UDP， 我 们 将 在 22.4 克 
探讨 这 个 设计 选择 。 使 用 UDP 编写 的 一 些 常见 的 应 用 程序 有 : DNS 

~NES (网 络 文件 系统 ) 和 SNMP (人 简单 网 络 管理 协 
议 o 


图 8-1 给 出 了 典型 的 UDP 客 户 /服务 器 程序 的 函数 调用 。 客 户 不 与 
服务 器 建立 连接 ， 而 是 只 管 使 用 Sendto 函 数 (将 在 下 一 节 介 绍 ) 给 
服务 器 发 送 数据 报 ， 其 中 必须 指定 目的 地 〈 即 服务 器 ) 的 地 址 作为 参 
数 。 类 似 地 ， 服 务 器 不 接受 来 自 客户 的 连接 ， 而 是 只 管 调用 
recvfrom 函 数 ， 等 竺 来 目 某 个 客户 的 数据 到 达 。recvfrom 将 与 所 
接收 的 数据 报 一 道 返回 客户 的 协议 地 址 ， 因 此 服务 器 可 以 把 响应 发 送 
给 正确 的 客户 。 


UDP 服务 器 


socket i} 


PEW: iyo dh 
ÁXRER JS ROL | | bind() | 


' recvfrom() 


UDP 客户 


| socket (} | i : : 
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close í) 


图 8-1 UDP 客户 /服务 器 程序 所 用 的 套 接 字画 数 
A 


Al8-1 Pa UDP A P RAAE P ACE A BA TTE EJ RS TR] 2 
o 我 们 可 以 将 该 图 和 图 4-1 所 示 的 TCP 的 典型 交互 进行 比较 。 


本 章 中 我 们 将 介绍 用 于 UDP 套 接 字 的 两 个 新 函数 recvfrom 和 
sendto， 并 使 用 UDP 重 写 我 们 的 回 射 客户 /服务 避 程 序 。 我 们 还 将 介 
ZiconnectÉN ZI EUDPZdZ-E "PII Fg YA UJ RA ERI ER © 


8.2 recvfrom#lsendtoway 

it SELF TENER readfiluritel/NZX, Aib 3i — T 8 
的 参数 。 
#include <sys/socket.h> 


ssize_t recvfrom(int sockfd, void *buff, size_t nbytes, int flags, 
struct sockaddr *from, socklen t *addrlen); 


ssize t sendto(int sockfd, const void *buff, size t nbytes, int 
flags, 


const struct sockaddr *to, socklen t *addrlen); 
HRE: a DMN SEI 


节 数 ， 大 出错 则 为 -1 


239~ 
240 
Bij — T XX sockfd ` buffMnbytes [H] F read#lwr ite HAA =^ 
参数 : HRI ^ FRA RE HK SET AES TRL 


flags 参 数 将 在 第 14 章 中 讨论 recv、send、recvmsg 和 sendmsg 
等 函数 时 再 介绍 ， 本 章 中 重 写 简单 的 UDP 回 射 客 户 /服务 器 程序 用 不 着 
它们 。 时 下 我 们 总 是 把 hags 置 为 0。 


sendto 的 to 参数 指 癌 一 个 含有 数据 报 接收 者 的 协议 地 址 (例如 IP 
地 址 及 端口 号 ) 的 套 接 字 地 址 结构 ， 其 大 小 由 addrien 参 数 指定 。 
recvfrom 的 from 参 数 指 同一 个 将 由 该 函数 在 返回 时 填写 数据 报 发 送 
者 的 协议 地 址 的 套 接 字 地 址 结构 ， 而 在 该 套 接 字 地 址 结构 中 填写 的 字 
世 数 则 放 在 addrlen 参 数 所 指 的 整数 中 返回 给 调用 者 。 注 意 ，sendto 
的 最 后 一 个 参数 是 一 个 整数 值 ， 而 recvfrom 的 最 后 一 个 参数 是 一 个 
指向 整数 值 的 指针 ( 即 值 -结果 参数 ) 。 


recvfrom 的 最 后 两 个 参数 类 似 于 accept 的 最 后 两 个 参数 : 返回 
时 其 中 套 接 字 地 址 结构 的 内 容 告诉 我 们 是 谁 发 送 了 数据 报 (UDP 情 况 
下 ) 或 是 谁 发 起 了 连接 (TCP 情 况 下 ) 。sendto 的 最 后 两 个 参数 类 似 


于 connect 的 最 后 两 个 参数 : 调用 时 其 中 套 接 字 地 址 结构 被 我 们 填 入 
UDP 情况 下 ) 或 与 之 建立 连接 (TCP 和 情况 下 ) 的 协议 


这 两 个 函数 都 把 所 读 写 数据 的 长 度 作 为 函数 返回 值 。 在 
recvfrom 使 用 数据 报 协 议 的 典型 用 途中 ， 返 回 值 束 是 所 接收 数据 报 
中 的 用 户 数据 量 。 


写 一 个 长 度 为 0 的 数据 报 是 可 行 的 。 在 UDP 情况 下 ， 这 会 形成 一 个 
只 包含 一 个 IP 首 部 (对 于 IPv4 通 常 为 20 个 字 节 ， 对 于 IPv6 通 常 为 40 个 
FT) 和 一 个 8 字 节 UDP 首 部 而 没有 数据 的 IP 数 据 报 。 这 也 意味 着 对 于 
数据 报 协议 ，recvfrom 返 回 0 值 是 可 接受 的 : 它 并 不 像 TCP 套 接 字 上 
read 返 回 0 值 那样 表示 对 端 已 关闭 连接 。 既 然 UDP 是 无 连接 的 ， 因 此 
也 就 没有 诸如 关闭 一 个 UDP 连接 之 类 事情 。 

如 果 recvfrom 的 fom 参 数 是 一 个 空 指针 ， 那 么 相应 的 长 度 参数 

(addrlen) 也 必须 是 一 个 空 指针 ， 表 示 我 们 并 不 关心 数据 发 送 者 的 协 

议 地址 o 

recvfrom 和 sendto 都 可 以 用 于 TCP， 尽 管 通常 没有 理由 这 样 
做 。 


8.3 UDP[S|5jHRoSsSTE/T: mainER2A 


现在 ， 我 们 用 UDP 重新 编写 第 5 章 中 人 简单 的 回 射 客户 /服务 器 程 
序 。 我 们 的 UDP 客 户 程 序 和 服务 絮 程 序 依循 图 8-1 中 所 示 的 函数 调用 流 
程 。 eae 的 函数 ， 图 8-3 则 给 出 了 服务 需 程 序 的 
main 函 数 。 


— fgets - 
标准 辆 入 i 

UDP 
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fputs 


图 8-2 ”使 用 UDP 的 简单 回 射 客户 /服务 器 
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图 8-3 ”UDP 回 射 服务 器 程序 
创建 UDP 套 接 字 ， 捆 绑 服 务 器 的 众所周知 端口 
7-12 ”我们 通过 将 socket 函 数 的 第 二 个 参数 指定 为 


SOCK_DGRAM (IPv4 协 议 中 的 数据 报 套 接 字 ) 创建 一 个 UDP 套 接 字 。 
正如 TCP 服 务 器 程序 的 例子 ， 用 于 bind 的 服务 器 IPv4 地 址 被 指定 为 


INADDR_ANY， 而 服务 器 的 众所周知 端口 是 头 文件 <unp .h> 中 定义 的 
SERV_PORT 常 值 。 


13 接着， 调用 函数 dg_echo 来 执行 服务 屡 的 处 理工 作 。 


8.4 UDP 回 射 服务 名 程序 : dg echoEN 
数 


图 8-4 给 出 了 dg_echo 画 数 。 


han echon 


| tins’ nse “mih” 


3 dq scho(izt socktd, SA *ocliasddr, socxlen t cli-en) 


4 { 

5 int Li 

6 sock-on L lou 

7 ciar rosy [MIXLINXE]; 

I { 

9 las 一 mi nn; 

10 " — Hecufromisockfó, mesg, MmXLINT, 2, pelinddr, &lon); 
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图 8-4 dg. echo/kZi: 在 数据 报 套 接 字 上 回 射 文本 行 
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ME A M 
读数 据 报 并 回 射 给 发 送 者 


8-12 该 函数 是 一 个 简单 的 循环 ， 它 使 用 recvfrom 读 入 下 一 个 
到 达 服 务 器 端口 的 数据 报 ， 再 使 用 Sendto 把 它 发 送 回 发 送 者 。 


尽管 这 个 函数 很 简单 ， 不 过 也 有 许多 细节 问题 需要 考虑 。 首 驳 ， 
该 函数 永 不 终止 ， 因 为 UDP 是 一 个 无 连接 的 协议 ， 它 没有 像 TCP 中 
EOF 之 类 的 东西 。 


其 次 ， 该 画 数 提供 的 是 一 个 近代 服务 器 (iterative server) ， 而 不 
是 像 TCP 服 务 需 那样 可 以 提供 一 个 并 发 服务 器 。 其 中 没有 对 fork 的 调 
用 ， 因 此 单个 服务 器 进程 就 得 处 理 所 有 客户 。 一 般 来 说 ， 大 多 数 TCP 
服务 器 是 并 发 的 ， 而 大 多 数 UDP 服 务 器 是 迭代 的 。 


对 于 本 去 接 字 ，UDP 层 中 隐 含 有 排队 发 生 。 事 实 上 每 个 UDP 套 接 
字 都 有 一 个 接收 缓冲 区 ， 到 达 该 套 接 字 的 每 个 数据 报 都 进入 这 个 套 接 


字 接 收 缓冲 区 。 当 进程 调用 recvfrom 时 ， 缓 冲 区 中 的 下 一 个 数据 报 
以 FIFO (先入 先 出 ) 顺序 返回 给 进程 。 这 样 ， 在 进程 能 够 读 该 套 接 字 
中 任何 已 排 好 队 的 数据 报 之 前 ， 如 果 有 多 个 数据 报到 达 该 套 接 字 ， 那 
么 相继 到 达 的 数据 报 仅 仅 加 到 该 套 接 字 的 接收 缓冲 区 中 。 然 而 这 个 组 
冲 区 的 大 小 是 有 限 的 。 我 们 已 在 7.5 节 随 SO_RCVBUF 套 接 字 选项 讨论 

了 这 个 大 小 以 及 如 何 增 大 它 。 


图 8-5 总 结 了 第 5 章 中 的 TCP 客 户 / 服 务 郁 在 两 个 客户 与 服务 器 建立 
连接 时 的 情形 。 


-~ 


-7 


= [v = 


= 


图 8-5 ”两 个 客户 的 TCP 客 户 / 服 务 器 小 结 


服务 名 主 机 上 有 两 个 已 连接 套 接 字 ， 其 中 每 一 个 都 有 各 目的 套 接 
字 接 收 缓冲 区 。 


图 8-6 展 示 了 两 个 客户 发 送 数据 报到 UDP 服务 大 的 情形 。 


图 8-6 ”两 个 客户 的 UDP 客户 /服务 器 小 结 
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达 的 数据 报 并 发 回 所 有 的 啊 应 。 该 套 接 字 有 一 个 接收 缓冲 区 用 来 存放 
所 到 达 的 数据 报 。 


图 8-3 中 的 main 函 数 是 协议 相关 的 ( 它 创 建 一 个 AF_INET 协 议 的 
套 接 字 ， 分 配 并 初始 化 一 个 IPv4 套 接 字 地 址 结构 ) ， 而 dg_echo 函 数 
是 协议 无 关 的 。dg_echo 协 议 无 关 的 理由 如 下 : 调用 者 (在 我 们 的 例 
子 中 为 main 函 数 ) 必须 分 配 一 个 正确 大 小 的 套 接 字 地 址 结构 ， 且 指向 
该 结构 的 指针 和 该 结构 的 大 小 都 必须 作为 参数 传递 给 dg_echo 。 
dg_echo 绝 不 查看 这 个 协议 相关 结构 的 内 容 ， 而 是 简单 地 把 一 个 指向 
该 结构 的 指针 传递 给 recvfrom 和 sendto。recvfrom 返 回 时 把 客户 
的 卫 地 址 和 端口 号 填 入 该 结构 ， 而 随后 作为 目的 地 址 传递 给 sendto 的 
又 是 同一 个 指针 (pcliaddr) ， 这 样 所 接收 的 任何 数据 报 就 被 回 射 
给 发 送 该 数据 报 的 客户 。 


8.5 UDPHRAPRF: main 函数 


图 8-7 给 出 了 UDP 客户 程序 的 main 函 数 。 


udpcieenvondpctit 
1 tiacla 
maintint q ar 

int ah 

ctrzact sockackr in 3e i 
7 1? (3v ! 
3 err gaití"usgage: cli «cIPacd-ze 
3 vot ddr, si zaof vvadd 
la cun vod [EL r= NP UNE 
r savad part. = hrn SERY PORTE? 
12 Irat n WO Nh "ITO a&acrvadar -ain orir 
13 kia = -RL {AF INET, OK ICREAM, 
14 peli(sta ktd, (3&4 gerveddx, sizect (servadcr 
la exit | 
E: 

ucpelisevvwidpetit 


图 8-7 UDP 回 射 客 户 程序 


把 服务 器 地 址 填 入 套 接 字 地 址 结构 


9-12 把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 IPv4 的 套 接 字 地 址 结 
构 。 该 结构 将 传递 给 dg_c1li 函 数 ， 以 指明 数据 报 将 发 往 何人 处。 


13-14 ”创建 一 个 UDP 套 接 字 ， 然 后 调用 dg_cli。 
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8.6 UDPHIRA PEF: dg dik% 


Al8-826 Hi dg. cli, "EDU BEA MEE TSE ° 


Jibidg cic 
1 fon ue "ung. b 
2 veld 
3 dg ci (TILS *ly, inl suckLd, cons. 2h *psecvaddrc, secklen 60 servicer} 
4 f 
5 n; 
aand] ine [Mex INE], recvlire[MAX , NK | 1]: 
wails ('gats(sendlirn, W^xilWs, fa) !—- MUI) 1 
SczdLlolsozcxLd, scucliro, slooenf(sendline), 0, pscrzwadd-, scrwlon); 
vr — kaceyfrom(scckfa, vacvl^nc, MAXI. WIES, D, NULL, NULL) 7 
16 rocvlino n] ~ 3; f* nall vorminalc */ 
11 Tpulsircevline, sldoul)s 
12 | 
165 0 
Jibédg cic 


图 8-8 dg cli/NZi: 客户 处 理 循环 


7-12 客户 处 理 循环 中 有 四 个 步骤 : 使 用 fgets 从 标准 输入 读 入 
一 个 文本 行 ， 使 用 sendto 将 该 文本 行 发 送 给 服务 器 ， 使 用 recvfrom 
读 回 服务 器 的 回 射 ， 使 用 fputs 把 回 射 的 文本 行 显示 到 标准 输出 。 


我 们 的 客户 尚未 请 求 内 核 给 它 的 套 接 字 指 派 一 个 临时 端口 。 (对 
于 TCP 客 户 而 言 ， 我 们 说 过 connect 调 用 正 是 这 种 指派 发 生 之 处 。) 
对 于 一 个 UDP 套 接 字 ， 如 有 果 其 进程 下 次 调用 sendto 时 它 没 有 绑 定 一 
个 本 地 端口 ， 那 么 内 核 束 在 此 时 为 它 选择 一 个 临时 端口 。 跟 TCP 一 
样 ， 客 户 可 以 显 式 地 调用 bind， 不 过 很 少 这 样 做 。 


注意 ， 调 用 recvfrom 指 定 的 第 五 和 第 六 个 参数 是 空 指针 。 这 告 
知 内 核 我 们 并 不 关心 应 答 数据 报 由 谁 发 送 。 这 样 做 存在 一 个 风险 : E 
何 进程 不 论 是 在 与 本 客户 进程 相同 的 主机 上 还 是 在 不 同 的 主机 上 ， 都 
可 以 同 本 客户 的 下地 址 和 端口 发 送 数据 报 ， 这 些 数据 报 将 被 客户 读 入 
并 个 认 为 是 服务 器 的 应 答 。 我 们 将 在 8.8 广 解决 这 个 问题 。 


与 服务 姻 的 dg_echo 函 数 一 样 ， 客 户 的 dg_c1li 了 范 数 也 是 协议 无 
关 的 ， 不 过 客户 的 main 函 数 是 协议 相关 的 。main 函 数 分 配 并 初始 化 


一 个 某 个 协议 类 型 的 套 接 字 地 址 结构 ， 并 把 指向 该 结构 的 指针 及 该 结 
构 的 大 小 传递 给 dg_c1i 。 


8.7 ”数据 报 的 丢失 


我 们 的 UDP 客 户 / 服 务 絮 例子 是 不 可 靠 的 。 如 果 一 个 客户 数据 报 于 
A ( 壁 如 说 ， 被 客户 主机 与 服务 器 主机 之 间 的 某 个 路 由 器 丢弃 ) ， 客 
户 将 永远 阻塞 于 dg_cli 了 画 数 中 的 recvfrom 调 用 ， 等 待 一 个 永远 不 会 
到 达 的 服务 絮 应 答 。 类 似 地 ， 如 果 客 户 数 据 报到 达 服 务 絮 ， 但 是 服务 
器 的 应 答 丢 失 了 ， 客 户 也 将 永远 阻塞 于 recvfrom 调 用 。 防 止 这 样 永 
久 阻 塞 的 一 般 方法 是 给 客户 的 recvfrom 调 用 设置 一 个 超时 。 我 们 将 
在 14.2 节 继续 讨论 这 一 点 。 
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仅仅 给 recvfrom 调 用 设置 超时 并 不 是 完整 的 解决 办 法 。 举 例 来 
说 ， 如 有 果 确 实 超时 了 ， 我 们 将 无 从 判定 超时 原因 是 我 们 的 数据 报 没 有 
到 达 服 务 吉 ， 还 是 服务 器 的 应 答 没 有 回 到 客户 。 如 采 客 户 的 请 求 是 “从 
账户 A 往 账户 B 转 一 定数 目的 钱 ? 而 不 是 我 们 的 简单 回 射 服务 硕 例 子 ， 
那么 请 求 丢 失 和 应 答 丢 失 十 极 不 相同 的 。 我 们 将 在 22.5 节 具体 讨论 如 
何 给 UDP 客户 /服务 器 程 序 增加 可 车 性 。 


8.8 ”验证 接收 到 的 啊 应 


在 8.6 世 结尾 我 们 所 到， 知道 客户 临时 端口 号 的 任何 进程 都 可 往 客 
尸 发 送 数 据 报 ， 而 且 这 些 数据 报 会 与 正常 的 服务 右 应 管 混杂 。 我 们 的 
解决 办 法 是 修改 图 8-8 中 的 recvfrom 调 用 以 返回 数据 报 发 送 者 的 了 P 地 
址 和 端口 号 ， 保 留 来 目 数据 报 所 发 往 服务 右 的 应 答 ， 而 名 略 任 何其 他 
数据 报 。 然 而 这 样 做 照样 存在 一 些 缺 陷 ， 我 们 马上 就 会 看 到 。 


我 们 首先 把 客户 程序 的 main 范 数 (图 8-7) 改 为 使 用 标准 回 射 服 
务 器 (图 2-13) 。 这 只 需 把 以 下 赋值 语句 


servaddr.sin port = htons(SERV PORT); 
CESA 


servaddr.sin_port = htons(7); 


r X, RAIRA Da EAS HESTENE EI ARS a EP] 3L 


我 们 接着 重 写 dg_cli 函 数 以 分 配 男 一 个 套 接 字 地 址 结构 用 于 存 
放 由 recvfrom 返 回 的 结构 ， 如 图 8-9 所 示 。 


wivelservdectiuntite.c 
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HOPE 
图 8-9 ”验证 返回 的 套 接 字 地 址 的 dg_c1i 函 数 版 本 


分 配 男 一 个 套 接 字 地 址 结构 


9 我们 调用 malloc 来 分 配 男 一 个 套 接 字 地 址 结构 。 注 总 
dg_ciji 函 数 仍然 是 协议 无 天 的 ， 因 为 我 们 并 不 关心 所 处 理 套 接 字 地 
址 结构 的 类 型 ， 而 只 是 在 malloc 调 用 中 使 用 其 大 小 。 


比较 返回 的 地 址 


12-18 在 recvfrom 的 调用 中 ， 我 们 通知 内 核 返 回 数据 报 发 送 
者 的 地 址 。 我 们 首先 比较 由 recvfrom 在 值 -结果 参数 中 返回 的 长 度 ， 
然后 用 memcmp 比 较 套 接 字 地 址 结构 本 身 。 


我 们 在 3.2 市 说 过 ， 即 使 套 接 字 地 址 结构 包含 一 个 长 度 字 段 ， 我 们 
也 不 必 设 置 或 检查 它 。 然 而 此 处 memcmp 比 较 两 个 套 接 字 地 址 结构 中 
NE NT D. MARRS Say, HORE SBE 
置 的 ;， 因 此 对 于 本 例 ， 与 之 比较 的 男 一 个 套 接 字 地 址 结构 也 必须 预先 
设置 其 长 度 字 段 。 否 则 ，memcmp 将 比较 一 个 值 为 0 的 字 市 (因为 没有 
设置 长 度 字 段 ) 和 一 个 值 为 16 的 字 世 EY «RAS sockaddr. in 结 
构 ) ， 结 果 目 然 不 匹配 。 


如 果 服 务 器 运行 在 一 个 只 有 单个 IP 地 址 的 主机 上 ， 那 么 这 个 新 版 
本 的 客户 工作 正 肖 。 然 而 如 末 服 务 器 主机 十 多 答 的 ， 该 客户 就 有 可 能 
Le PU 两 个 接口 和 两 个 IP 地 址 的 主机 freebsd4 运 行 本 客 
程序 。 


macosx % host freebsd4 

freebsd4.unpbook.com has address 172.24.37.94 
freebsd4.unpbook.com has address 135.197.17.100 
macosx % udpcli02 135.197.17.100 


hello 

reply from 172.24.37.94:7 (ignored) 
goodbye 

reply from 172.24.37.94:7 (ignored) 


我 们 指定 的 服务 器 IP 地 址 不 与 客户 主机 共 至 同一 个 子 网 。 


这 样 指定 服务 器 IP 地 址 通常 是 允许 的 。2 大 多 数 IP 实 现 接 受 目 的 地 
址 为 本 主机 任 一 了 地 址 的 数据 报 ， 而 不 管 数 据 报到 达 的 接口 (TCPv2 
第 217~-219 页 ) ° RFC 1122 [Braden 1989] 称 之 为 弱 端 系统 模型 
(weak end system model) 。 如 有 果 一 个 系统 实现 的 是 该 RFC 中 所 说 的 强 
端 系统 模型 (strong end system model) ， 那 么 它 将 只 接受 到 达 接 口 与 
目的 地 址 一 致 的 数据 报 。 
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recvfrom 返 回 的 IP 地 址 (UDP 数据 报 的 源 IP 地 址 ) 不 是 我 们 所 

发 送 数据 报 的 目的 卫 地 址 。 当 服务 器 发 送 应 答 时 ， 目 的 了 P 地 址 是 
172.24.37.94。 主 机 freebsd4 内 核 中 的 路 由 功能 为 之 选择 172.24.37.78 
作为 外 出 接口 。 既 然 服务 器 没有 在 其 套 接 字 上 绑 定 一 个 实际 的 卫 地 址 

(服务 器 绑 定 在 其 套 接 字 上 的 是 通 配 IP 地 址 ， 这 一 点 可 通过 在 
freebsd4 上 运行 netstat 来 验证 ) ， 因 此 内 核 将 为 封装 这 些 应 答 的 
IP 数 据 报 选 择 源 地 址 。 选 为 源 地 址 的 是 外 出 接口 的 主 IP 地 址 〈TCPv2 
78232—233J71) 。 还 有 ， 有 既然 它 是 外 出 接口 的 主 IP 地 址 ， 如 果 我 们 指 
定 发 送 数据 报到 该 接口 的 某 个 非 主 IP 地 址 ( 即 一 个 IP 别 名 ) ， 那 么 也 
将 导致 图 8-9 版 本 客户 程序 的 测试 失败 。 


一 个 解决 办 法 是 : 得 到 由 recvfrom 返 回 的 也 地 址 后 ， 客 户 通过 
在 DNS (11H) 中 查找 服务 器 主机 的 名 字 来 验证 该 主机 的 域名 (而 


不 是 它 的 IP 地 址 ) 。 男 一 个 解决 办 法 是 :， UDP 服务 器 给 服务 器 主机 上 
配置 的 每 个 了 PP 地 址 创建 一 个 父 接 字 ， 用 bind 捆 绑 每 个 地址 到 各 目的 
套 接 字 ， 然 后 在 所 有 这 些 套 接 字 上 使 用 select (等 待 其 中 任何 一 个 
变 得 可 读 ) ， 再 从 可 读 的 套 接 字 给 出 应 答 。 既 然 用 于 给 出 应 答 的 套 接 
字 上 绑 定 的 IP 地 址 就 是 客户 请 求 的 目的 耻 地 址 (否则 该 数据 报 不 会 被 
投递 到 该 套 接 字 ) ， 这 就 保证 应 答 的 源 地 址 与 请 求 的 目的 地 址 相同 。 
我 们 将 在 22.6 广 给 出 一 个 这 样 的 例子 。 


在 多 答 Solaris 系 统 上 ， 服 务 器 应 答 的 源 IP 地 址 就 是 客 尸 请 求 的 目 
的 IP 地 址 。 本 市 讲述 的 情形 针对 源 目 Berkeley 的 实现 ， 这 些 实现 基于 外 
出 接口 选择 源 IP 地 址 。 


8.9 HRÓSSRXLTETKIAÍI 


我 们 下 一 个 要 检查 的 情形 是 在 不 局 动 服务 恬 的 前 提 下 启动 客户 。 
如 果 我 们 这 么 做 后 在 客户 上 键入 一 行文 本 ， 那 么 什么 也 不 发 生 。 客 户 
永远 阻塞 于 它 的 recvfrom 调 用 ， 等 竺 一 个 永 不 出 现 的 服务 器 应 答 。 
然而 这 是 一 个 很 好 的 例子 ， 它 要 求 我 们 更 多 地 了 解 底层 协议 以 理解 网 
络 应 用 进程 将 发 生 什 么 。 


首先 ， 我 们 在 主机 macosx 上 局 动 tcpdump， 然 后 在 同一 个 主机 
上 启动 客户 ， 指 定 主机 freebsd4 为 服务 器 主机 。 接 着 ， 我 们 键入 一 


行文 本 ， 不 过 这 行文 本 没有 被 回 射 。 


macosx % udpcli01 172.24.37.94 


hello, world 我 们 键入 这 一 行 
但 没有 任何 内 容 
图 8-10 给 出 了 tcpdump 的 输出 。 
i 0.4 arp who-has freebsd4 tall macosx 
0.002575 { 0.0036] arp rep-y freensd4 is-st d ee ;42;:d5:de 
0.002601 { 0.00CU)] macosx.51139 > frocbod4.9z pe eee 
0.909781 {| 0.0062) freabec4 > macosx: iomo: enable wis port 9877 unreachable 


图 8-10” 当 服务 器 主机 上 未 启动 服务 器 进程 时 tcpdump 的 输出 


248 


首先 我 们 注意 到 ， 在 客户 主机 能 够 往 服务 器 主机 发 送 那个 UDP 数 
据 报 之 前 ， 需 要 一 次 ARP 请 求 和 应 答 的 交换 。 (我 们 把 这 个 交换 保留 
在 tcpdump 的 输出 中 ， 是 为 了 强调 在 IP 数 据 报 可 发 往 本 地 网 络 上 男 一 
个 主机 或 路 由 恬 之 前 ， 还 是 有 可 能 出 现 ARP 请 求 -应 答 的 。) 


我 们 从 第 3 行 看 到 客户 数据 报 发 出 ， 然 而 从 第 4 行 看 到 ， 服 务 器 主 
机 啊 应 的 是 一 个 "port unreach-able" 《端口 不 可 达 ) ICMP 消 息 。 (KÆ 
13 是 12 个 字符 加 换行 符 。) 不 过 这 个 ICMP 错 误 不 返回 给 客户 进程 ， 其 
原因 我 们 稍 后 讲述 。 客 户 永 远 阻 塞 于 图 8-8 中 的 recvfrom 调 用 。 ,我们 
还 指出 ICMPv6 也 有 端口 不 可 达 错 误 类 型 ， 类 似 于 ICMPv4 〈 见 图 A-15 
和 图 A-16) ， 因 此 这 里 讨论 的 结果 对 于 IPv6 也 类 似 。 


我 们 称 这 个 ICMP 错 误 为 异步 错误 (asynchronous error) 。 该 错误 
由 sendto 引 起 ， 但 是 sendto 本 身 却 成 功 返 回 。 回 顾 2.11 节 ， 我 们 知 
道 从 UDP 输出 操作 成 功 返 回 仅仅 表 示 在 接口 输出 队列 中 具有 存放 所 形 
成 了 数据 报 的 空间 。 该 ICMP 错 误 直到 后 来 才 返 回 (图 8-10 所 示 为 4ms 
之 后 ) ， 这 就 是 称 其 为 异步 的 原因 。 


一 个 基本 规则 是 ， 对 于 一 个 UDP 套 接 字 ， 由 它 引 发 的 异步 错误 却 
并 不 返回 给 它 ， 除 非 它 已 连接 。 我 们 将 在 8.11 节 讨论 如 何 给 UDP 套 接 
字 调 用 connect。 很 少 有 人 明白 套 接 字 最 初 实 现时 为 什么 做 此 设计 决 
策 。 (实现 内 涵 在 TCPv2 第 748~-749 页 讨论 。) 


考虑 在 单个 UDP 套 接 字 上 接连 发 送 3 个 数据 报 给 3 个 不 同 的 服务 器 
( 即 3 个 不 同 的 也 地址 ) 的 一 个 UDP 客户 。 该 客户 随后 进入 一 个 调用 

recvfrom 读 取 应 答 的 循环 。 其 中 有 2 个 数据 报 被 正确 递送 (也 就 是 
说 ，3 个 主机 中 有 2 个 在 运行 服务 器 ) ， 但 是 第 三 个 主机 没有 运行 服务 
器 。 第 三 个 主机 于 是 以 一 个 ICMP 端 口 不 可 达 错 误 响 应 。 这 个 ICMP 出 
错 消息 包含 引起 错误 的 数据 报 的 卫 首 部 和 UDP 首部 。 (ICMPv4 和 
ICMPv6 出 错 消息 总 是 包含 IP 首 部 和 所 有 的 UDP 首部 或 部 分 TCP 首 部 ， 
如 图 28-21 和 图 28-22 所 

e) 发 送 这 3 个 数据 报 的 客户 需要 知道 引发 该 错误 的 数据 报 的 目的 地 
i DK} 究竟 是 哪 一 个 数据 报 引 发 了 错误 。 但 是 内 核 如 何 把 该 信息 返 
回 给 客户 进程 呢 ? recvfrom 可 以 返回 的 信息 仪 有 errno 值 ， 它 没有 
法 返回 出 错 数 据 报 的 目的 IP 地 址 和 目的 UDP 端 口号 。 因此 做 出 决 
E: 仪 在 进程 已 将 其 UDP 套 接 字 连接 到 恰恰 一 个 对 端 后 ， 这 些 异 步 错 
误 才 返回 给 进程 。 


只 要 SO_BSDCOMPAT 套 接 字 选项 没有 开启 ，Linux 甚 至 对 未 连接 
大 多 数 ICMP“destination unreachable” (目的 地 不 可 
ik) 错误 。 图 A-15 中 除 代 码 为 0、1、4、5、11 和 12 之 外 的 所 有 ICMP 目 
的 地 不 可 达 错 误 均 被 返回 。 


我 们 将 在 28.7 节 再 次 讨论 UDP 套 接 字 上 异步 错误 的 这 个 问题 ， 并 
给 出 一 个 使 用 我 们 自己 的 守护 进程 获取 未 过 生计 搂 字 上 这 些 错误 的 简 
法 。 
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8.10 ”UDP 程序 例子 小 结 


图 8-11 以 圆 点 的 形式 给 出 了 在 客户 发 送 UDP 数 据 报时 必须 指定 或 
选择 的 四 个 值 。 


socket () 
seadtco () 


图 8-11 ”从 客户 角度 总 结 UDP 客 户 / 服 务 器 


客户 必须 给 sendto 调 用 指定 服务 如 的 IP 地 址 和 端口 号 。 一 般 来 
说 ， 客 户 的 IP 地 址 和 端口 号 都 由 内 核 目 动 选择 ， 尽 管 我 们 提 到 过 ， 客 
户 也 可 以 调用 bind 指 定 它 们 。 在 客户 的 这 两 个 值 由 内 核 选 择 的 情形 下 
我 们 也 提 到 过 ， 客 户 的 临时 端口 是 在 第 一 次 调用 sendto 时 一 次 性 选 
定 ， 不 能 改变 ;然而 客户 的 了 地 址 却 可 以 随 客户 发 送 的 每 个 UDP 数据 
报 而 变动 (假设 客户 没有 捆绑 一 个 具体 的 IP 地 址 到 其 套 接 字 上 ) 。 其 
原因 如 图 8-11 所 示 : WRAP Eile ea, BPA) Ree T HBU 
地 之 间 交 奉 选 择 ， 其 中 一 个 由 左边 的 数据 链 路 外 出 ， 男 一 个 由 右边 的 
数据 链 路 外 出 。 在 这 种 最 坏 的 情形 下 ， 由 内 核 基 于 外 出 数据 链 路 选择 
的 客户 地 址 将 随 每 个 数据 报 而 改变 。 


WAR PHS MIP HODES ee EAR Eh Z 
据 报 必须 从 另 一 个 数据 链 路 发 出 ， 那 么 将 会 发 生 什么 ? 这 种 情形 下 ， 
人 (见习 题 
8.6) ° 


图 8-12 给 出 了 同样 的 四 个 值 ， 但 是 是 从 服务 右 的 角度 出 发 的 。 


socket () 
recvfromi) bind() 


AB c n ER 
Xx BI FSI Att Li 


指定 本 地 人 地 址 
CHE yx Ae Heh} 


SER 


图 8-12 ”从 服务 器 角度 总 结 UDP 客 户 /服务 器 


服务 器 可 能 想 从 到 达 的 IP 数 据 报 上 取得 至 少 四 条 信息 源 IP 地 
址 、 目 的 JP 地 址 、 源 端 a 图 8-13 给 出 了 从 TCP 服 务 
右 或 UDP 服 务 絮 返回 这 些 信息 的 函数 调用 。 


来 自 客户 的 中 数据 报 TCP 服 务 器 UDP 服务 器 
源 下 地 址 accept 


A x ili I 1 arno p 克 
ji ity | | ^ accept 


ASIP Ht getsockname recvmsg 


目的 端口 号 getsockname getsockname 


图 8-13 ”服务 器 可 从 到 达 的 IP 数 据 报 中 获取 的 信息 


TCP 服 务 器 总 是 能 便捷 地 访问 已 连接 套 接 字 的 所 有 这 四 条 信息 ， 

而 且 这 四 个 值 在 连接 的 整个 生命 期 内 保持 不 变 。 然 而 对 于 UDP 套 接 
字 ， 目 的 IP 地 址 只 能 通过 为 ITPv4 设 置 TIP_RECVDSTADDR 套 接 字 选项 

(或 为 IPv6 设 置 TPV6_PKTINF0 套 接 字 选项 ) 然后 调用 recvmsg (而 
不 是 recvfrom) 取得 。 由 于 UDP 是 无 连接 的 ， 因 此 目的 了 地址 可 随 
发 送 到 服务 器 的 每 个 数据 报 而 改变 。UDP 服 务 器 也 可 接收 目的 地 址 为 
服务 器 主机 的 某 个 广播 地 址 或 多 播 地 址 的 数据 报 ， 这 些 我 们 将 在 第 20 
章 和 第 21 章 中 讨论 。 我 们 将 在 22.2 节 讨论 recvmsg 函 数 之 后 ， 展 示 如 
何 确定 一 个 UDP 数据 报 的 目的 地 址 。 
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8.11 UDP BJconnect KAk 


在 8.9 节 结尾 我 们 提 到 ， 除 非 套 接 字 已 连接 ， 否 则 异步 错误 是 不 会 
返回 到 UDP 套 接 字 的 。 我 们 确实 可 以 给 UDP 套 接 字 调 用 connect (4.3 
节 ) ， 然 而 这 样 做 的 结果 却 与 TCP 连 接 大 相 径 庭 : 没有 三 路 握手 过 
程 。 内 核 只 是 检查 是 否 存在 立即 可 知 的 错误 〈 例 如 一 个 显然 不 可 达 的 
目的 地 ) ， 记 录 对 端的 IP 地 址 和 端口 号 ( 取 自 传递 给 connect 的 套 接 
字 地 址 结构 ) ， 然 后 立即 返回 到 调用 进程 。 


connect HAEE; (overload) UDP 套 接 字 的 这 种 能 力 容 易 让 
人 混淆 。 如 果 使 用 约定 ， 令 sockname 是 本 地 协议 地 址 ，peername 
是 外 地 协议 地 址 ， 那 么 更 好 的 名 字 本 该 是 setpeername。 类 似 地 ， 
bind 函 数 更 好 的 名 字 本 该 是 setsockname 。 


有 了 这 个 能 力 后 ， 我 们 必须 区 分 : 


e 未 连接 UDP 套 接 字 (unconnected UDP socket) ， 新 创建 UDP 套 接 
字 默 认 如 此 ; 

e EXETZUDP £ETZ^E. (connected UDP socket) ， 对 UDP 套 接 字 调用 
connect 的 结 


对 于 已 连接 UDP 套 接 字 ， 与 殉 认 的 未 连接 UDP 套 接 字 相 比 ， 发 生 
本 本 


(1) 我 们 再 也 不 能 给 输出 操作 指定 目的 卫 地 址 和 端口 号 。 也 就 是 
说 ， 我 们 不 使 用 Sendto， 而 改 用 write 或 send。 写 到 已 连接 UDP 套 
接 字 上 的 任何 内 容 都 自动 发 送 到 由 connect 指 定 的 协议 地 址 (例如 IP 
地 址 和 端口 号 ) e 


其 实 我 们 可 以 给 已 连接 UDP 套 接 字 调 用 sendto， 但 是 不 能 指定 
目的 地 址 。sendto 的 第 五 个 参数 (指向 指明 目的 地 址 的 套 接 字 地 址 
结构 的 指针 ) 必须 为 空 指针 ， 第 六 个 参数 (该 套 接 字 地 址 结构 的 大 
小 ) 应 该 为 0。 POSIX 规 范 指 出 当 第 五 个 参数 是 空 指针 时 ， 第 六 个 参数 
的 取 值 就 不 再 考虑 。 


(2) 我 们 不 必 使 用 recvfrom 以 获悉 数据 报 的 发 送 者 ， 而 改 用 
read、recv 或 recvmsg。 在 一 个 已 连接 UDP 套 接 字 上 ， 由 内 核 为 输 
入 操作 返回 的 数据 报 只 有 那些 来 自 connect 所 指定 协议 地 址 的 数据 
报 。 目 的 地 为 这 个 已 连接 UDP 和 套 接 字 的 本 地 协议 地 址 (例如 IP 地 址 和 
端口 号 ) ， 发 源 地 却 不 是 该 套 接 字 早先 connect 到 的 协议 地 址 的 数据 
报 ， 不 会 投递 到 该 套 接 字 。 这 样 就 限制 一 个 已 连接 UDP 套 接 字 能 且 仅 
能 与 一 个 对 端 交换 数据 报 。 


确切 地 说 ， 一 个 已 连接 UDP 僚 接 字 仪 仅 与 一 个 IP 地 址 交换 数据 
报 ， 因 为 connect 到 多 播 或 广播 地 址 征 可 能 的 。 
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(3) 由 已 连接 UDP 和 套 接 字 引 发 的 异步 错误 会 返回 给 它们 所 在 的 进 
程 ， 而 未 连接 UDP 和 套 接 字 不 接收 任何 异步 错误 。 


图 8-14 就 4.4BSD 总 结 了 上 列 第 一 点 。 


= X wr Lc8e cad 
TOPEIE SF 可 以 Vi ETSCOKN 
LDP 套 接 字 ， 已 连接 可 以 LISCONM 
UDPZH*, RE ELzSTADDE SEQ 


图 8-14 TCPAIUDPHRS: 可 指定 目的 地 协议 地 址 吗 ? 


POSIX 规 范 指 出 ， 在 未 连接 UDP 套 接 字 上 不 指定 目的 地 址 的 输出 
操作 应 该 返回 ENOTCONN， 而 不 是 EDESTADDRREQ ° 


图 8-15 总 结 了 我 们 给 已 连接 UDP 套 接 字 归 纳 的 三 点 。 


* p Hbmita 0 
S SAUDE Seth 


TDPU E 


UDP RAE ag 


图 8-15 已 连接 UDP 套 接 字 


应 用 进程 首先 调用 connect 指 定 对 端的 IP 地 址 和 端口 号 ， 然 后 使 
用 read 和 write 与 对 端 进程 交换 数据 。 


来 目 任 何其 他 了 P 地 址 或 端口 的 数据 报 (图 8-15 中 我 们 用 “???” 表 
示 ) 不 投递 给 这 个 已 连接 套 接 字 ， 因 为 它们 要 么 源 IP 地 址 要 么 源 UDP 
端口 不 与 该 套 接 字 connect 到 的 协议 地 址 相 匹配 。 这 些 数据 报 可 能 投 
递 给 同一 个 主机 上 的 其 他 某 个 UDP 套 接 字 。 如 果 没 有 相 匹配 的 其 他 套 
接 字 ，UDP 将 丢 痉 它们 并 生成 相应 的 ICMP 端 口 不 可 达 错 误 。 


作为 小 结 ， 我 们 可 以 说 UDP 客户 进程 或 服务 右 进 程 只 在 使 用 目 己 
的 UDP 和 套 接 字 与 确定 的 唯一 对 端 进行 通信 时 ， 才 可 以 调用 connect 。 
调用 connect 的 通常 是 UDP 客户 ， 不 过 有 些 网 络 应 用 中 的 UDP 服务 器 
会 与 单个 客户 长 时 间 通 信 (如 TFTP) ， 这 种 情况 下 ， 客 户 和 服务 器 都 
可 能 调用 connect。 
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DNS 提供 了 另 一 个 例子 ， 如 图 8-16 所 示 。 


图 8-16 DNS 客户 、 服 务 器 与 connect 函 数 的 例子 


通常 通过 在 /etc/resolv .conf 文 件 中 列 出 服务 器 主机 的 IP 地 
址 ， 一 个 DNS 客 户主 机 就 能 被 配置 成 使 用 一 个 或 多 个 DNS 服 务 器 。 如 
果 列 出 的 是 单个 服务 器 主机 (图 中 最 左边 的 方 框 ) ， 客 户 进 程 就 可 以 
调用 connect， 但 是 如 果 列 出 的 是 多 个 服务 器 主机 (图 中 从 右边 数 第 
二 个 方 框 ) ， 客 户 进程 就 不 能 调用 connect。 另 外 DNS 服务 器 进程 通 
常 是 处 理 客户 请 求 的 ， 因 此 服务 器 进程 不 能 调用 connect。 


8.11.1 ”给 一 个 UDP 套 接 字 多 次 调用 connect 
拥有 一 个 已 连接 UDP 套 接 字 的 进程 可 出 于 下 列 两 个 目的 之 一 再 次 


调用 connect: 


。 指定 新 的 也 地 址 和 端口 号 ; 
。 WITTBIRS ° 


第 一 个 目的 “〈 即 给 一 个 已 连接 UDP 套 接 字 指 定 新 的 对 端 ) 不 同 于 
TCP 套 接 字 中 connect 的 使 用 : 对 于 TCP 套 接 字 ，connect 只 能 调用 
一 次 。 


为 了 断 开 一 个 已 连接 UDP 套 接 字 ， 我 们 再 次 调用 connect 时 把 套 
接 字 地 址 结构 的 地 址 族 成 员 (对 于 IPv4 为 sin_family， 对 于 IPV6 为 
sin6 family) 设置 为 AF_UNSPEC。 这 么 做 可 能 会 返回 一 个 
EAFNOSUPPORT 错 误 (TCPv2 第 736 页 ) ， 不 过 没有 关系 。 使 套 接 字 上 断 
A a a (TCPv2 787 
一 788 页 ) ° 


各 种 Unix 变 体 断 开 套 接 字 上 连接 的 方式 存在 差异 ， 同 样 的 方法 可 
能 适合 某 些 系统 而 不 适合 其 他 系统 。 举 例 来 说 ， 以 空 的 套 接 字 地 址 结 
构 指 针 调 用 connect 的 方法 仅仅 适合 某 些 系统 (而 在 男 一 些 系统 上 ， 
要 求 第 三 个 参数 即 套 接 字 地 址 结构 长 度 为 非 0) 。POSIX 规 范 和 BSD 手 
册页 面 在 此 帮助 不 大 ， 只 是 提 到 必须 使 用 一 个 空地 址 (null 
address) ， 而 根本 没有 提 到 出 错 返 回 值 (其 至 成 功 返 回 值 也 没有 提 
到 ) 。 最 便于 移植 的 解决 办 法 就 是 清 零 一 个 地 址 结构 后 把 它 的 地 址 族 
成 员 设置 为 AF_UNSPEC， 再 把 它 传递 给 connect。 


Fy SEE FET ETF EB DS EAB HO E HE BY 
值 。AIX 保 留 被 选中 的 本 地 IP 地 址 和 端口 号 ， 即 使 它们 起 源 于 隐 式 捆 
绑 。FreeBSD 和 Linux 把 本 地 IP 地 址 设置 回 全 0， 即 使 早先 调用 过 
bind， 端 口号 也 保持 不 变 。Solaris 在 隐 式 捆绑 时 把 本 地 IP 地 址 设置 回 
全 0， 在 显 式 调 用 过 bind 时 保持 IP 地 址 不 变 。 
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8.11.2 ”性 能 


当 应 用 进程 在 一 个 未 连接 的 UDP 套 接 字 上 调用 sendto 时 ， 源 自 
Berkeley 的 内 核 暂 时 连接 该 套 接 字 ， 发 送 数 据 报 ， 然 后 断 开 该 连接 
(TCPv228762~76301) 。 在 一 个 未 连接 的 UDP 套 接 字 上 给 两 个 数据 
报 调用 sendto 画 数 于 是 涉及 内 核 执 行 下 列 6 个 步骤 : 


连接 套 接 字 ，; 
输出 第 一 个 数据 报 ; 
HAERTER; 
连接 套 接 字 ，; 
输出 第 二 个 数据 报 ; 
HAERTER © 


另 一 个 考虑 是 搜索 路 由 表 的 次 数 。 第 一 次 临时 连接 需 为 目的 卫 地 
址 搜索 路 由 表 并 高 速 缓存 这 条 信息 。 第 二 次 临时 连接 注意 到 目的 地 址 
等 于 已 高 速 缓存 的 路 由 表 信 息 的 目的 地 (我 们 假设 这 两 个 sendto 调 
on 
738 页 ) ° 


当 应 用 进程 知道 自己 要 给 同一 目的 地 址 发 送 多 个 数据 报时 ， 显 式 
i e 。 调 用 connect 后 调用 两 次 write 涉及 内 核 执 行 
如 下 步骤 : 


。 连接 套 接 字 ; 
。 输出 第 一 个 数据 报 ; 
。 输出 第 二 个 数据 报 。 


在 这 种 情况 下 ， 内 核 只 复制 一 次 舍 有 目的 人 P 地 址 和 端口 号 的 套 接 
字 地 址 结构 ， 相 反 当 调用 两 次 sendto 时 ， 需 复制 两 次 。 [Partridge 和 
Pink 1993] 指出 ， 临 时 连接 未 连接 的 UDP 套 接 字 大 约会 耗费 每 个 UDP 
传输 三 分 之 一 的 开销 。 
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8.12 dg _cali 函 数 (修订 版 ) 


现在 我 们 回 到 图 8-8 中 的 dg_c1i 画 数 ， 把 它 重 写成 调用 
connect 。 图 8-17 所 示 为 新 的 函数 。 


T3 (111 fr nz fJ [ ] ker TA 
Les 
shes iilizc[ERXLINE], r [EZXLINZ - 1] 
= kta ) nm = Te 
hile ernine ire, LINE Y 
write! f 3end 2, veninne a)i 
1 n = Rad i ;lin TALINT) 
l ree | " uil Lerriitint 
| portair avant) 7 
| 
l 
m ? 
图 8-17 WiHiconnectíjdg cli/RZ 


所 做 的 修改 是 调用 connect， 并 以 read 和 write 调用 代替 
sendto 和 recvfrom 调 用 。 该 函数 不 查看 传递 给 connect 的 套 接 字 
地 址 结构 的 内 容 ， 因 此 它 仍然 是 协议 无 关 的 。 图 8-7 中 的 客户 程序 
main KRURI RE ° 


在 主机 macosx 上 运行 该 程序 ， 并 指定 主机 freebsd4 的 IP 地 址 
USUS UM ， 我 们 得 到 如 下 输 


macosx % udpcli04 172.24.37.94 
hello, world 
read error: Connection refused 


我 们 首先 注意 到 ， 当 启动 客户 进程 时 我 们 并 没有 收 到 这 个 错误 。 
该 错误 只 是 在 我 们 发 送 第 一 个 数据 报 给 服务 套 之 后 才 发 生 。 正 十 发 送 
该 数据 报 引发 了 来 自 服务 器 主机 的 ICMP 错 误 。 然 而 当 一 个 TCP 窜 户 进 


程 调 用 connect， 指 定 一 个 不 在 运行 服务 器 进程 的 服务 器 主机 时 ， 
connect 将 返回 同样 的 错误 ， 因 为 调用 connect 会 造成 TCP 三 路 握 
手 ， 而 其 中 第 一 个 分 节 导 致 服务 器 TCP 返 送 RST (4.377) ° 
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图 8-18 给 出 了 tcpdump 的 输出 。 


ZUSX 
! U.0 "macosx.h5 13€ > Ft-ncbsd4A. 9877: nc icd E 
? CAKAR (0 0.00602] freebsd > maceny: ianp: -reebaodc i Tert 9887! nrreackab e 


图 8-18” 当 运行 图 8-17 中 程序 时 tcpdump 的 输出 


我 们 还 从 图 A-15 中 看 到 ， 该 ICMP 错 误 由 内 核 映 射 成 
ECONNREFUSED 错 误 ， 对 应 于 由 err_sys 函 数 输出 的 消 轧 
FB: “Connection refused” (连接 被 拒绝 ) 。 


不 季 的 是 ， 并 非 所 有 内 核 都 能 像 本 下 的 示例 那样 把 ICMP 消 息 返 送 
给 已 连接 的 UDP 套 接 字 。 一 般 来 说 ， 源 自 Berkeley 的 内 核 返 回 这 种 错 
误 ， 而 System V 内 核 则 不 。 举 例 来 说 ， 如 果 我 们 在 一 个 Solaris 2.4 主 机 
上 运行 同一 个 等 户 程 厚 ， 并 connect 到 没有 运行 服务 器 的 一 个 主机 
Ji 我 们 就 可 以 用 tcpdump 观 察 并 验证 服务 需 主 机 返回 了 ICMP 端 口 
不 可 达 错 误 ， 但 是 客户 的 read 调 用 永 不 返回 。 这 个 缺陷 在 Solaris 2.5 
中 已 修复 。UnixWare 不 返回 这 种 错误 ， 而 AIX ` Digital Unix ` HP-UX 
和 Linux 都 返回 这 种 错误 。 


8.13 ”UDP 缺乏 流量 控制 


现在 我 们 查看 无 任何 流量 控制 的 UDP 对 数据 报 传输 的 影响 。 首 
先 ， 我 们 把 dg_c1i 函 数 修改 为 发 送 固定 数目 的 数据 报 ， 并 不 再 从 标 
准 输入 读 。 图 8-19 所 示 为 新 的 版 本 ， 它 写 2000 个 1400 字 节 大 小 的 UDP 
数据 报 给 服务 器 。 


uedpeti 
tinc une 1 
2 tdezzne NIC 2000 /* Gatagqrans to send T? 
tde=-1 XIDEN 14 ^ength each d 1 
E D AE *fT paervedd: en t savy’ n 
z 
3 i: 
4 "en e TXT TN 
: (fT — Ry I 
13 Jot í d llir Lb, E 14 
l- 


图 8-19 ” 写 国 定数 目的 数据 报到 服务 器 的 dg_c1i 函 数 


然后 ， 我 们 把 服务 如 程序 修改 为 接收 数据 报 并 对 其 计数 ， 并 不 再 
把 数据 报 回 冉 给 客户 。 图 8-20 所 示 为 狐 的 dg_echo 函 数 。 当 我 们 用 终 
端 中 断 键 终 止 服务 器 时 (相当 于 向 它 发 送 SIGINT 信 和 号) ， 服 务 器 会 
显示 所 接收 到 数据 报 的 数目 并 终止 。 


udpelisenv!deascholuap!.c 
1 Ainc.ude "unp Ii" 
2 stanice wid reevfrom int (inti? 
3 atatic int count; 
d wri 
5 dg achofinn snckfd, 5^ *peliadór, seckle- t eliten) 


T nocklen t len; 

£ char meag [MAXI Ih]; 

=] i l(SIGINT, = Lr int) 

S Loz ‘Te A, 

Re len — clicuns 

we ReceLrüun(sockld, mesy, MAXLINE, C, peliadds, &lez):; 
“5 un.-t 

-4 H 

ras 


6 stacn wed 


二 recvtrom :n-(int signo) 


LE 
E) mvint={"\rreceived Sd dateqranayn”, PPT 十) 了 
ZU exil (2): 


wdecisenvdeerholoups.¢ 


图 8-20 ”对 接收 到 数据 报 进行 计数 的 dg_echo 画 数 


现在 我 们 在 主机 freebsd 上 运行 服务 器 ， 它 是 一 个 慢 速 的 SPARC 
工作 站 ; 在 RS/6000 系 统 aix 上 运行 客户 ， 两 个 主机 间 以 100 Mbit/s EJ 
太 网 相连 。 另 外 ， 我 们 在 服务 器 主机 上 运行 netstat-s 命 令 ， 在 服务 
器 启动 前 和 结束 后 各 运行 一 次 ， 因 为 它们 输出 的 统计 数据 将 表明 丢失 
了 多 少数 据 报 。 图 8-21 给 出 了 服务 器 主机 上 的 输出 。 


aix = udpserv06 
^Y Sets n CAPERE 
received 2000 dalaygrans 
frccosaá £ netstat -s -p udp 
udo: 
71268 datagrams received 
0 with incomplete neader 
) with bad data length fielc 
0 with bad checksum 
0 with no checksum 
332 dropped duc Lo ne sockel 
16 DroacGcasc/m:lticzat datagrams dropped dun to no socket 
1971 Gropped die to foll socket buffers 
0 not for hashed pcb 
€€309 delivered 


127685 catagrams output 
treeosa š udpservJ6 ERE 
再 在 此 处 运行 客 上 请 
^C & Per vino Et 


received 30 dalagrams 
Froeeosa % netstat -s -p udp 
udo: 
73268 datagrams received 
0 with incomplete header 
J with sac data length tiela 
U with sac checkoum 
J wilh no checksum 
332 dropped duc to no socket 
16 bDevadcas_f/mullLicasl dalagrams dropped duc Lo no socket 
3941 Groppod die to frill socket buffers 
0 not for hashed pcb 
£C419 delivered 
13/685 calagrans oulpu- 


图 8-21 服务 器 主机 上 的 输出 
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窗户 发 出 2000 个 数据 报 ， 但 是 服务 器 只 收 到 其 中 的 30 个 ， 丢 失 率 
为 98%。 对 于 服务 器 应 用 进程 或 客户 应 用 进程 都 没有 给 出 任何 指示 说 


这 些 数 据 报 已 丢失 。 这 证 实 了 我 们 说 过 的 话 ， 即 UDP 没 有 流量 控制 并 
且 古 不 可 靠 的 。 本 例 表 明 UDP 发 送 剖 淹没 其 接收 端 古 轻而易举 之 事 。 


分 查 netstat 的 输出 ， 我 们 看 到 服务 器 主机 (而 不 是 服务 器 本 
身 ) 接收 到 的 数据 报 总 数 是 2000 (73208-71208) ° “dropped due to full 
socket buffers”【(〈 因 套 接 字 缓冲 区 满 而 丢弃 ) 计数 器 的 值 表示 已 被 UDP 
接收 ， 但 是 因为 接收 套 接 字 的 接收 队列 已 满 而 被 丢弃 的 数据 报 的 数目 
(TCPv2 第 775 页 ) 。 该 值 为 1970 (3491 1971) ， 它 加 上 由 应 用 进程 
输出 的 计数 值 (30) 等 于 服务 器 主机 接收 到 的 2000 个 数据 报 。 不 六 的 
是 ， 因 套 接 字 缓 冲 区 满 而 丢弃 数据 报 的 netstat 计 数值 是 全 系统 范围 
de 没有 办 法 确定 具体 影响 到 哪些 应 用 进程 《例如 哪些 UDP 端 
O o 


本 例 中 由 服务 器 接收 的 数据 报 的 数目 是 不 确定 的 。 它 依赖 于 许多 
a 例如 网 络 负载 、 客 户主 机 的 处 理 负载 以 及 服务 器 主机 的 处 理 负 
车 [e] 


如 果 我 们 再 次 运行 相同 的 客户 和 服务 器 ， 不 过 这 一 次 让 客户 运行 
在 慢 速 的 Sun 主 机 上 ， 让 服务 絮 运 行 在 较 快 的 RS/6000 主 机 上 ， 那 就 没 
有 数据 报 丢 失 。 


UDP 套 接 凶 接收 缓冲 区 


由 UDP 给 某 个 特定 套 接 字 排队 的 UDP 数据 报 数目 受 限 于 该 套 接 字 
接收 缓冲 区 的 大 小 。 我 们 可 以 使 用 SO_RCVBUF 套 接 字 选项 修改 该 值 ， 
如 7.5 节 所 述 。 在 FreeBSD 下 UDP 套 接 字 接 收 缓冲 区 的 默认 大 小 为 42 
080 字 市 ， 也 就 是 只 有 30 个 1400 字 市 数据 报 的 容纳 空间 。 如 果 我 们 增 大 
套 接 字 接 收 缓冲 区 的 大 小 ， 那 么 服务 器 有 望 接 收 更 多 的 数据 报 。 图 8- 
22 给 出 了 对 图 8-20 中 dg_echo 函 数 的 修改 ， 把 套 接 字 接收 缓冲 区 设置 
为 240 KB ° 


udpeliservdgecholaop..c 
1 tinclud: "uk" 
2 static void recvirom int (inti; 
3 elulic in- counts 


å void 

Sey ccaolin. sucklu, 5A *scliaddr, scckicr L cLl-cm) 

É | 

' int ae 

y sockleu L len; 

har wegg [MAXI 1017 7 

-zü Sigaal(-2IGINT, -ecvlrom ial): 
xxm u —- 22J * 1U24; 

EU Sonseckoot (sackfd, SOL SCRL, SO HCVBUr?, sn, si2n507[n]); 
"ud Tor Ck XJ) T 

27 1 lan — eliten; 
Lb Reovtromiocckid, mesq, MASLINE, 0, poliadar, &len):? 
S count! le 

"8 J 


-9 elulic void 
20 mecv?nvom irr(int signo) 


2- d 


zz prialbl("Mrreceived Sc dablagrawswu", counlb): 
23 exil {9}? 
2< 1 


udpeliservdeecholaop..c 
图 8-22 SEA ESE BAT NIdg echoEZi 


在 Sun 主 机 上 运行 这 个 服务 絮 程 序 ， 在 RS/6000 主 机 上 运行 其 客户 
程序 ， 接 收 到 的 数据 报 计数 现在 变 为 103。 这 比 前 面 使 用 默认 套 接 字 接 
收 缓冲 区 的 例子 稍 有 改善 ， 不 过 仍然 不 能 从 根本 上 解决 问题 。 


在 图 8-22 中 我 们 为 什么 把 接收 套 授 字 绥 冲 区 大 小 设 为 220x1 024 字 
节 昵 ?FreeBSD5.1 中 一 个 套 接 字 接 收 缓 冲 区 的 最 大 大 小 默认 为 262 144 
字 节 (256x1024) ， 但 是 由 于 缓冲 区 分 配 策略 ( 见 TCPv2 第 2 章 ) , 
真实 的 限制 是 233 016 字 节 。 许 多 基于 4.3BSD 的 早期 系统 把 一 个 套 接 字 
缓冲 区 的 大 小 限制 为 52 000 字 节 左 右 。 


8.14 UDP 中 的 外 出 接口 的 确定 


已 连接 UDP 套 接 字 还 可 用 来 确定 用 于 某 个 特定 目的 地 的 外 出 接 
口 。 这 是 由 connect 函 数 应 用 到 UDP 套 接 字 时 的 一 个 副作用 造成 的 ; 
内 核 选择 本 地 IP 地 址 (假设 其 进程 未 曾 调 用 bind 显 式 指派 它 ) 。 这 个 
本 地 IP 地 址 通过 为 目的 IP 地 址 搜索 路 由 表 得 到 外 出 接口 ， 然 后 选用 该 
接口 的 主 IP 地 址 而 选 定 


图 8-23 给 出 了 一 个 简单 的 UDP 程序 ， 它 connect 到 一 个 指定 的 IP 
地 址 后 调用 getsockname 得 到 本 地 IP 地 址 和 端口 号 并 显示 输出 。 


Kep $. 6 


2 irt 
J main(int arqc, char ''arqv) 


int sacktcl 

[4 suckien Ll .en: 

y sloucy suckadde in  zliudd-z, vorvackic; 

9 if) farge. 1 fas 

E err cait("18aqo: ucozli <iPaddvoss>"); 
19 suckld = Svusel IAF -NET, SOCK ICRAM, Ul; 
17 bzovs(ksorvaddr, siznnfí(s^rvaddr)): 
12 sorvuddr.sin fumily - AF INET; 
13 savvaddr.sin part htcons[S*MV ART); 
14 Tnet. pron|AF TNET, arqv| ., Ssoervaddr.ain_acar}; 
15 Connecl(suckÜd, (5% *) &scrvaddr, sizcof(scrvaddr)): 


16 len 一 size Mode ddr} 


1? ‘ton nam fa, (s 4) Sa saddr, alen)? 
13 prinzf ("To ihe add ana sat n", Sack ntap( (Ss *] Scliacér, ler}; 


13 call (Ül; 


unpetisemvudpeht9.c 


图 8-23 ”使 用 connect 来 确定 输出 接口 的 UDP 程序 
在 多 宿主 机 freebsd 上 运行 该 程序 ， 我 们 得 到 如 下 输出 : 


freebsd % udpcli09 206.168.112.96 
local address 12.106.32.254:52329 


freebsd % udpcli09 192.168.42.2 
local address 192.168.42.1:52330 


freebsd % udpcli09 127.0.0.1 
local address 127.0.0.1:52331 


Z8 URISAT AREY N Bt Has 115 3906 — T TRE EE SIPH 
址 。 内 核 把 本 地 了 P 了 地址 指派 成 默认 路 径 所 指 接口 的 主 卫 地 址 。 第 二 次 
运行 该 程序 时 所 用 命令 行 参数 是 连接 到 另 一 个 以 太 网 接口 的 一 个 系统 
的 了 P 地 址 ， 因 此 内 核 把 本 地 IP 地 址 指派 成 该 接口 的 主 地 址 。 在 UDP 套 
接 字 上 调用 connect 并 不 给 对 端 主机 发 送 任何 信息 ， 它 完全 是 一 个 本 
地 操作 ， 只 是 保存 对 端的 也 地 址 和 病 口 号 。 我 们 还 看 到 ， 在 一 个 未 绑 
定 端口 号 的 UDP 和 套 接 字 上 调用 connect 同 时 也 给 该 套 接 字 指 派 一 个 临 
时 端口 。 


不 笠 的 是 ， 这 项 技术 并 非 对 所 有 实现 都 有 效 ， 尤 其 是 源 自 SVR4 的 
内 核 。 举 例 来 说 ， 它 对 Solaris 2.5 无 效 ， 对 AIX、HP-UX 11 ^ MacOS 
X ^ FreeBSD ^ Linux ^ Solaris 2.6 及 其 以 后 版 本 却 均 有 效 。 


8.15  fEHiselectERZXHJTCPATIUDPI[BEI S AR 
务 器 程序 


现在 ， 我 们 把 第 5 章 中 的 并 发 TCP 回 射 服务 器 程序 与 本 章 中 的 迭代 
UDP 回 射 服务 器 程序 组 合成 单个 使 用 select 来 复 用 TCP 和 UDP 套 接 字 
的 服务 器 程序 。 图 8-24 是 该 程序 的 前 半 部 分 。 


udpeliservadpservselacm! .c 


| Ninclnde: "gap Hn 

? int. 

3 main[inl arge, char **argv) 

44 

t ist listenfc, connte, udptd, nreacy, mraxtcol; 
6 char mesy |MAXLINZ|: 

7 pig d. zbildpid; 

£ *d net rset; 

t£ sgire t n; 

f sockler_t. ler; 
ll const irt on — 1; 
12 sloucl sockacddr in  clladdr, servadde; 
13 voia sig calc (int): 
14 /* create Listening TID socket */ 


ls lisLcrld — SovaclLiaF INET, SOCK STREAM, J) 


16 bzczo(&sccyacddr, slzooL(scrvadd-)); 

17 servaddr.sin family 一 Ae INIT? 

itc scrvaddr.sin addr.s adde ~ hroal(INADDIR ANY); 

1e sevvaddr.sin port 一 hanns [SRV FOZG); 

af Setsockopt (listanfd, SOL SCCKINT, HO RSUSHADDR, &on, sizecfíon)):; 
aÓinG(listenfd, (5A *'] &aervadür, nizeof(nervaddr]]:; 

22 Lislern(lisler tj, LISCENZ): 

23 /* czcalc ODP sockel */ 

^4 udpfáG 一 5ockezi^r TNR’; SOCK DERAM, 2); 

2b bazero(s&scervaddr, slzeoL(gervaudr)) 

36 sozvaddr.sin fomily — AF INET: 

33 servaddr.sin zddr.s addr — hzonléINADUA ANY)? 

2E seryackir.ain_part. — hinna [SFRY TORT) ; 


BSinetucintd, (SA 4) znaervaddr, aizecntiservacedr)); 
udpcliservé/aedpservselecm!! c 


图 8-24 ”使 用 select 处 理 TCP 和 UDP 的 回 射 服务 器 程序 ， 前 半 部 分 
创建 监听 TCP 套 接 字 


14-22 创建 一 个 监听 TCP 套 接 字 并 捆绑 服务 器 的 众所周知 并 
口 ， 设 置 SO_REUSEADDR 套 接 字 选项 以 防 该 端口 上 已 有 连接 存在 。 


创建 UDP 套 接 字 


23-29 还 创建 一 个 UDP 套 接 字 并 捆绑 与 TCP 套 接 字 相同 的 端 
口 。 这 里 无 需 在 调用 bind 之 前 设置 SO_REUSEADDR 套 接 字 选项 ， 


为 TCP 端 口 是 独 立 于 UDP 端口 的 。 


népelseriudnsernvsetecta lc 


图 8-25 给 出 了 服务 器 程序 的 后 半 部 分 。 
aa Signa (SIGN, sieg child]; /Á* mush call wailgid() *7 
3l LL ABRU(é-secL)s 
32 mzxfdp maxi(listorfd, ndpfd) + 1; 
33 Tur iru) i 
az 3 Sswr(limteonfd, sree): 
3n Ea swrodpfd, riet}; 
3t it { (mreacy 一 select (maxidol, rset, NULL, NULL, NULL)) < 3) { 
3j ii jərrno = ELITR) 
33 vor nust /* back to Lor) */ 
33 else 
EDU arr syst sulok orror”) 
41 J 
4? if (r) 1 iliatenfà, sreatid | 
43 lan 一 sizeoficliacedr); 
4£ zonnfd 一 Axx gl isona, (SA *] àeliadlie, Eo ond; 
45 il 4 (ghiléoid = rForki)) — 0) : /* zhild process */ 
A6 Dass (listonfa): FA finan "istoang sccxst 5j 
17 ntr echo[connfda); /* prnceaa the re&equea- “了 
4n anit (0) > 
45 } 
bY 2lose(conntc); /* parent closes connected socket */ 
sl } 
52 iL (FD ISSET(udplo, sruelj) f 
44 lan 一 rizectialiaccdr); 
54 n= Pevviscal(udele, mesq, MAXLINE, U, (SA *] &cliaddr, é& en): 
bb Sendto2(vudpfc, mesq, n, 2, (SA *] &cliadd-z, en): 
56 } 


napeüiservuapservseéeeta T. e 


图 8-25 ”使 用 select 处 理 TCP 和 UDP 的 回 射 服务 器 程序 : 后 
给 SIGCHLD 建 立信 号 处 理 程 序 


半 部 


分 


30 ”给 SIGCHLD 建 立信 号 处 理 程序 ， 因 为 TCP 连 接 将 由 某 个 子 进 


程 处 理 。 我 们 已 在 图 5-11 中 给 出 了 这 个 信号 处 理 函 数 。 
准备 调用 select 


31-32 我们 给 select 初 始 化 一 个 描述 符 集 ， 并 计算 出 我 们 等 
待 的 两 个 描述 符 的 较 大 者 。 


调用 select 
34-41 我 们 调用 Select 只 是 为 了 等 待 监听 TCP 套 接 字 的 可 读 条 


件 或 UDP 和 套 接 字 的 可 读 条 件 。 既 然 我 们 的 sig_ch1d 信 号 处 理 函 数 可 
能 中 断 我 们 对 select 的 调用 ， 我 们 于 是 需要 处 理 EINTR 错 误 。 
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处 理 新 的 客户 连接 
42-51 当 监 听 TCP 套 接 字 可 读 时 ， 我 们 accept 一 个 新 的 客户 连 
接 ，fork 一 个 子 进程 ， 并 在 子 进程 中 调用 str_echo 函 数 。 这 与 第 5 
章 中 采取 的 步骤 相同 。 
处 理 数 据 报 的 到 达 


52-57 如 果 UDP 套 接 字 可 读 ， 那 么 已 有 一 个 数据 报到 达 。 我 们 
使 用 recvfrom 读 入 它 ， 再 使 用 sendto 把 它 发 回 给 客户 。 


8.16 ^] 
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序 比较 容易 ， 然 而 TCP 提 供 的 许多 功能 也 消失 了 : 检测 丢失 的 分 组 并 
重 传 ， 验 证 啊 应 是 否 来 目 正 确 的 对 端 ， 等 等 。 到 22.5 市 我 们 再 回 过 头 
来 讨论 这 个 话题 ， 并 查看 如 何 给 UDP 应 用 程序 增加 一 些 可 靠 性 。 
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才 报 告 的 错误 。TCP 套 接 字 总 是 给 应 用 进程 报告 这 些 错误 ， 但 是 UDP 
套 接 字 必须 已 连接 才能 接收 这 些 错误 。 

UDP 没有 流量 控制 ， 这 一 点 很 容易 演示 证 明 。 一 般 来 说 ， 这 不 成 
什么 问题 ， 因 为 许多 UDP 应 用 程序 是 用 请 求 -应 答 模 式 构造 的 ， 而 且 不 
用 于 传送 大 量 数据 。 


编写 UDP 应 用 程序 时 还 有 许多 问题 需要 考虑 ， 不 过 我 们 把 它们 留 
到 第 22 章 ， 也 融 是 在 讲解 了 接口 男 数 、 广 播 和 多 播 以 后 再 作 讨论 。 


习题 


8.1 我 们 有 两 个 应 用 程序 ， 一 个 使 用 TCP， 另 一 个 使 用 UDP © 
TCP 套 接 字 的 接收 缓冲 区 中 有 4096 字 节 的 数据 ，UDP 套 接 字 的 接收 组 
冲 区 中 有 两 个 2048 字 节 的 数据 报 。TCP 应 用 程序 调用 read， 指 定 其 第 
三 个 参数 为 4096，UDP 应 用 程序 调用 recvfrom， 指 定 其 第 三 个 参数 
也 为 4096。 这 两 个 应 用 程序 有 什么 差别 吗 ? 


82 ”在 图 8-4 中 ， 如 果 我 们 用 c1Lilen 来 代替 sendto 的 最 后 一 个 
参数 ( 它 原本 是 len) ， 将 会 发 生 什 么 ? 


8.3 ”编译 并 运行 图 8-3 及 图 8-4 的 UDP 服 务 器 程序 和 图 8-7 及 图 8-8 
的 UDP 客户 程序 。 验 证 一 下 客户 与 服务 器 能 一 起 工作 。 


8.4 在 一 个 窗口 中 运行 ping 程 序 ， 指 定 - 土 60 选 项 (每 60 秒 发 
一 个 分 组 ， 有 些 系统 用 -I 而 不 是 -i) 、-v 选 项 (输出 所 有 接收 到 的 
ICMP 错 误 ) 和 环 回 地 址 (通常 为 127.0.0.1) 。 我 们 将 用 该 程序 来 观察 
由 服务 器 主机 返回 的 端口 不 可 达 ICMP 错 误 。 然 后 ， 在 另 一 个 窗口 运行 
m LEE 指定 不 在 运行 服务 器 的 某 主 机 的 IP 地 址 。 将 会 
A 


85 “对 于 图 8-5 我 们 说 过 每 个 已 连接 TCP 套 接 字 都 有 自己 的 套 接 字 
o 监听 套 接 字 情 况 怎样 ? 你 认为 它 有 上 自己 的 套 接 字 接收 组 
冲 区 吗 ? 


8.6 用 sock 程 序 (C.3 节 ) 和 诸如 tcpdump (C.5 节 ) 之 类 的 工 
具 来 测试 我 们 在 8.10 节 给 出 的 声明 : 如 果 客 户 bind 一 个 JP 地 址 到 它 的 
套 接 字 上 ， 但 是 发 送 一 个 从 其 他 接口 外 出 的 数据 报 ， 那 么 该 数据 报 仍 
然 包 含 绑 定 在 该 套 接 字 上 的 IP 地 址 ， 即 使 该 I 了 P 地 址 与 该 数据 报 的 外 出 
接口 并 不 相符 也 不 管 。 


8.7 ”编译 8.13 节 中 的 程序 并 在 不 同 的 主机 上 运行 客户 和 服务 器 。 
在 客户 程序 中 每 次 写 一 个 数据 报到 套 接 字 处 放 一 个 printf 调 用 ， 这 
会 改变 接收 到 分 组 的 百分比 吗 ? 为 什么 ? 在 服务 需 程 序 中 每 次 从 套 接 


字 读 一 个 数据 报 处 放 一 个 printf 调 用 ， 这 会 改变 接收 到 分 组 的 百 分 
比 吗 ? 为 什么 ? 


8.8 对 于 UDP/IPv4 和 套 接 字 ， 可 传递 给 sendto 的 最 大 长 度 是 多 
>, 也 就 是 说 ， 可 装填 在 一 个 UDP/IPv4 数 据 报 中 的 最 大 数据 量 是 多 
少 ? UDP/IPv6 又 有 什么 不 同 ? 
修改 图 8-8 以 发 送 最 大 长 度 的 UDP 数据 报 ， 读 回 它 ， 并 输出 由 
recvfrom 返 回 的 字 节 数 。 


8.9 ”通过 对 UDP 套 接 字 使 用 IP_RECVDSTADDR 套 接 字 选项 ， 把 
图 8-25 的 程序 修改 为 符合 RFC 1122 ° 
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从 客户 主机 到 服务 器 主机 非 共 至 子 网 IP 地 址 的 路 径 与 从 客户 主机 到 服 
务 眉 主机 共 至 子 网 IP 地 址 的 路 径 一 至。 通常 情形 下 这 两 条 路 经 不 一 定 
一 致 。 不 注意 到 这 一 点， 作者 随后 的 解释 将 难以 理解 。 一 一 译 者 广 


Boe ”基本 S0.23CTP 套 接 字 编程 
9.1 概述 


SCTP 是 一 个 较 新 的 传输 协议 ， 于 2000 年 在 IETF 得 到 标准 化 (而 
TCP 是 在 1981 年 标准 化 的 ) 。 它 最 初 是 为 满足 不 断 增 长 的 也 电话 市 场 
设计 的 ， 具 体 地 说 就 是 穿越 因特网 传输 电话 信 令 。 它 设计 实现 的 需求 
在 RFC 2719 [Ong et al. 1999] 中 说 明 。SCTP 是 一 个 可 靠 的 面向 消息 
的 协议 ， 在 端点 之 间 提 供 多 个 流 ， 并 为 多 宿 提 供 传输 级 文 持 。 有 既然 是 
一 个 较 新 的 传输 协议 ， 它 没有 TCP 或 UDP 那样 无 处 不 在 ， 然 而 它 提供 
了 一 些 有 可 能 简化 特定 应 用 程序 设计 的 新 特性 。 我 们 将 在 23.12 节 讨论 
"TIS RSCTPIVETCPBJIS E] ° 


尽管 SCTP 和 TCP 之 间 存 在 一 些 本 质 性 的 差别 ， 然 而 SCTP 的 一 到 
— (one-to-one) 接口 与 TCP 提 供 的 应 用 接口 非常 接近 。 这 一 点 允许 轻 
而 易 举 地 移植 应 用 程序 ， 不 过 没 法 使 用 SCTP 的 某 些 高 级 特性 。SCTP 
的 一 到 多 (one-to-many) 接口 提供 了 这 些 特性 的 完全 支持 ， 然 而 可 能 
需要 费时 费力 地 重新 编写 已 有 的 应 用 程序 。 对 于 大 多 数 使 用 SCTP 开 发 
的 新 应 用 程序 而 言 ， 推 荐 使 用 一 到 多 接口 。 


ZKXCUERE n] Ab FF SCT PAY EAR Eee =F Loo RITE SC EAR RH 
程序 开发 人 员 可 以 使 用 的 两 种 不 同 的 接口 模型 。 在 第 10 章 中 ， 我 们 将 
使 用 一 到 多 模型 开发 回 射 服务 器 程序 的 一 个 版 本 。 我 还 讲解 仅仅 用 于 
SCTP 的 新 函数 ， 随 后 查看 shutdown 画 数 ， 了 解 它 在 SCTP 中 的 使 用 
与 在 TCP 中 的 使 用 如 何不 同 。 我 们 接着 简要 讨论 SCTP 中 通知 

(notification) 的 使 用 。 通 知 使 得 一 个 应 用 进程 能 够 知晓 用 户 数据 到 
ee 。23.4 节 中 我 们 将 会 看 到 一 个 如 何 使 用 通知 的 
| o 
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SCTP 各 种 特性 的 接口 因为 本 喘 较 新 而 尚未 完全 稳定 。 编 写本 书 
时 ， 书 中 讲解 的 接口 被 认为 是 已 经 稳定 ， 不 过 当然 没有 像 套 接 字 API 
其 余部 分 那样 普遍 存在 。 仅 使 用 SCTP 的 应 用 程序 的 用 户 需 准备 好 安装 


内 核 补 丁 或 升级 操作 系统 ， 而 想 要 在 各 种 平台 上 使 用 的 应 用 程序 需要 
同时 考虑 使 用 TCP， 以 应 对 SCTP 不 可 用 的 系统 。 


92 ”接口 模型 


SCTP 套 接 字 分 为 : 一 到 一 套 接 字 和 一 到 多 套 接 字 。 一 到 一 套 接 字 
对 应 一 个 单独 的 SCTP 关 联 。 (回顾 2.5 节 ， 我 们 知道 一 个 SCTP 关 联 是 
两 个 系统 之 间 的 一 个 连接 ， 不 过 可 能 由 于 多 宿 原 因而 在 每 个 端点 涉及 
不 止 一 个 IP 地 址 。) 这 种 映射 类 似 于 TCP 套 接 字 和 TCP 连 接 的 对 应 关 
系 。 对 于 一 到 多 套 接 字 ， 一 个 给 定 套 接 字 上 可 以 同时 有 多 个 活跃 的 
SCTP 关 联 。 这 种 映射 类 似 于 绑 定 了 某 个 特定 端口 的 UDP 套 接 字 能 够 从 
若干 个 同时 在 发 送 数据 的 远程 UDP 端点 接收 彼此 交错 的 数据 报 。 


在 决定 使 用 哪 种 接口 形式 时 ， 需 要 考虑 应 用 程序 的 多 个 因素 。 


。 Pii 5 AAR A i ERI IS (CA EACH? 

。 服务器 希望 管理 多 少 套 接 字 描述 和 从? 

。 优化 关联 建立 的 四 路 握手 过 程 ， 使 得 能 够 在 其 中 第 三 个 (也 可 能 
征 第 四 个 ) 分 组 交换 用 户 数据 ， 这 一 点 很 重要 吗 ? 

。 应 用 进程 希望 维护 多 少 个 连接 状态 ? 


在 开发 SCTP 的 套 接 字 API 期 间 ， 这 两 种 形式 的 套 接 字 曾经 用 过 别 
的 称谓 ， 在 文档 或 源 代码 中 ， 读 者 有 时 会 磁 到 这 些 旧 的 名 称 。 一 到 一 
套 接 字 原 本 称 为 TCP 风 格 (TCP-style) 套 接 字 ， 一 到 多 套 接 字 原本 称 
为 UDP 风格 套 接 字 。 


这 些 风 格 称谓 后 来 被 取消 了 ， 因 为 它们 易于 造成 混 消 ， 即 SCTP 可 
能 被 误解 成 其 行为 更 像 TCP 或 UDP， 上 有 具体 取决 于 使 用 哪 种 风格 的 套 接 
字 。 事 实 上 这 些 称 谓 仅 仅 引 用 了 TCP 套 接 字 和 UDP 套 接 字 在 一 个 方面 
的 差异 〈 即 是 否 文 持 多 个 并 发 的 传输 层 关 联 ) 。 它 们 目前 的 称 请 (一 
到 一 与 一 到 多 ) 集中 体现 了 这 两 种 套 接 字 形式 之 间 的 关键 差异 。 最 后 
指出 ， 有 些 作者 使 用 多 到 一 这 个 称谓 代替 一 到 多 ， 两 者 可 以 互 换 。 
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9.2.1 一 到 一 形式 


开发 一 到 一 形式 的 目的 是 方便 将 现 有 TCP 应 用 程序 移植 到 SCTP 
上 。 它 提供 的 模型 与 第 4 章 中 介绍 的 几乎 一 样 。 以 下 是 这 两 者 之 间 必 须 
的 差异 ， 特 别 是 在 把 现 有 TCP 应 用 程序 移植 到 SCTP 的 这 种 形式 上 
Est o 


(1) ETCC RR FEM MFR CS LAY SCT PS fe FIT o P 
个 较 常 见 的 选项 是 TCP_NODELAY 和 TCP_MAXSEG， 它 们 应 该 映射 成 
SCTP_NODELAY 和 SCTP_MAXSEG ° 


(2) SCTP 保 存 消 恩 边界 ， 因 而 应 用 层 消 恩 边界 并 非 人 必需。 举例 来 
说 ， 基 于 TCP 的 某 个 应 用 协议 可 能 先 执行 一 个 双子 节 的 write 系 统 调 
用 ， 给 出 消 居 的 长 度 x， 再 调用 一 个 x 字 市 的 write 系 统 调用 ， 写 出 消 
息 数 据 本 身 。 改 用 SCTP 后 ， 接 收 端 SCTP 将 收 到 两 个 独立 的 消息 (也 
束 是 说 得 有 两 次 read 系 统 调用 才能 返回 全 部 数据 :第 一 次 返回 一 个 双 
字 节 数据 ， 第 二 次 返回 一 个 x 字 节 消 息 ) 。 


(3) 有 些 TCP 应 用 进程 使 用 半 关 闭 来 告知 对 端 去 往 它 的 数据 流 已 经 
结束 。 将 这 样 的 应 用 程序 移植 到 SCTP 需 要 额外 重 写 应 用 层 协议 ， 让 应 
用 进程 在 应 用 数据 流 中 告知 对 端 该 传输 数据 流 已 经 结束 。 


(4) send XNZICBERS A ED SUBE HI 9 fi HH sendtosXsendmsgEN 
数 时 ， 指 定 的 任何 地 址 都 被 认为 是 对 目的 地 主 地址 (2.85) 的 重 写 
(overriding, AKARE ` ASA) ° 


图 9-1 所 示 为 一 到 一 套 接 字典 型 用 法 的 时 间 线 图 。 服 务 器 启动 后 ， 
打开 一 个 套 接 字 ，bind 一 个 地 址 ， 然 后 就 等 着 accept 客 户 关 联 。 一 
段 时 间 后 客户 启动 ， 它 也 打开 一 个 套 接 字 ， 并 初始 化 与 服务 器 的 一 个 
关联 。 我 们 假设 客户 向 服务 器 发 送 一 个 请 求 ， 服 务 器 处 理 该 请 求 后 向 
客户 发 回 一 个 应 答 。 这 个 循环 持续 到 客户 开始 终止 该 关联 为 止 。 这 样 
主动 关闭 关联 之 后 ， 服 务 器 或 者 退出 ， 或 者 等 待 新 的 关联 。 通 过 对 比 
图 4-1 所 示 TCP 典 型 用 法 的 时 间 线 图 ， 我 们 看 到 SCTP 一 到 一 套 接 字 的 
交互 类 似 于 TCP 套 接 字 。 
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SCTP 服 务 器 


Sy RRO 


listení) 


accept [) 


SCTP 客 户 一 有 阻塞 到 


连接 建立 


í SCIPIUEETS-F ) 


图 9-1 ”SCTP 一 到 一 形式 的 套 接 字画 数 
一 到 一 式 SCTP 套 接 字 是 一 个 类 型 为 SOCK_STREAM ， 协 议 为 


IPPROTO_SCTP 的 网 际 网 套 接 字 〈 即 协议 族 为 AF_INET 或 
AF_INET6) 。 


9.2.2 一 到 多 形式 


一 到 多 形式 给 应 用 程序 开发 人 员 提 供 这 样 的 能 力 : 编写 的 服务 器 
程序 无 需 管理 大 量 的 套 接 字 描 述 符 。 单 个 套 接 字 描述 符 将 代表 多 个 天 
联 ， 就 像 一 个 UDP 套 接 字 能 够 从 多 个 客户 接收 消息 那样 。 在 一 到 多 式 
套 接 字 上 ， 用 于 标识 单个 关联 的 是 一 个 关联 标识 (association 
identifier) 。 关 联 标识 是 一 个 类 型 为 sctp_assoc_t 的 值 ， 通 常 是 一 
个 整数 。 它 是 一 个 不 透明 的 值 ， 应 用 进程 不 应 该 使 用 不 是 由 内 核 先前 
给 予 的 任何 关联 标识 。 一 到 多 式 套 接 字 的 用 户 应 该 掌握 以 下 几 点 。 


(1) 当 一 个 客户 关闭 其 关联 时 ， 其 服务 郁 也 将 目 动 关 闭 同 一 个 天 
联 ， 服 务 器 主机 内 核 中 不 再 有 该 天 联 的 状态 。 


(2) 可 用 于 致使 在 四 路 握手 的 第 三 个 或 第 四 个 分 组 中 捐 带 用 户 数 据 
的 唯一 办 法 就 是 使 用 一 到 多 形式 (见习 题 9.3) 。 


(3) 对 于 一 个 与 它 还 没有 关联 存在 的 IP 地 址 ， 任 何以 它 为 目的 地 的 
sendto、sendmsg 或 sctp_sendmsg 将 导致 对 主动 打开 的 尝试 ， 从 
而 (如果 成 功 的 话 ) 建立 一 个 与 该 地 址 的 新 关联 。 这 种 行为 的 发 生 与 
执行 分 组 发 送 的 这 个 应 用 进程 是 否 曾 调用 过 1isten 函 数 以 请 求 被 动 
HAR! 


(4) 用 户 必须 使 用 sendto、sendmsg 或 sctp_sendmsg 这 3 个 分 
组 发 送 画 数 ， 而 不 能 使 用 send 或 write 这 2 个 分 组 发 送 函 数 ， 除 非 已 
经 使 用 sctp_peeloff 函 数 从 一 个 一 到 多 式 套 接 字 剥离 出 一 个 一 到 一 
NERF ° 


(5) ETRA EHE ARSKA, A A H LUE 
是 由 系统 在 关联 建立 阶段 (2.87) 选 定 的 主 目的 地 址 ， 除 非 调 用 者 在 
所 提供 的 sctp_sndrcvinfo 结 构 中 设置 了 MSG_ADDR_OVER 标 志 。 
为 了 提供 这 个 结构 ， 调 用 者 必须 使 用 伴随 辅助 数据 的 sendmsg 函 数 或 
sctp_sendmsg 函 数 。 


(6) 关联 事件 (将 在 9.14 广 讨论 的 众多 SCTP 通 知之 一 ) 可 能 被 局 
用 ， 因 此 要 是 应 用 进程 不 希望 收 到 这 些 事件 ， 残 得 使 用 
SCTP_EVENTS 套 接 字 选项 显 式 禁止 它们 。 默 认 情 况 下 局 用 的 唯一 事 
件 是 sctp_data_io_event， 它 给 recvmsg 和 sctp_recvmsg 调 用 


提供 辅助 数据 。 这 个 默认 设置 同时 适用 于 一 到 一 形式 和 一 到 多 形式 。 


最 初 开发 SCTP 的 套 接 字 API 时 ， 一 到 多 形式 接口 被 定义 成 默认 情 
况 下 也 开启 关联 事件 通知 。 该 API 文 档 的 后 续 版 本 禁止 了 一 到 一 和 一 
到 多 这 两 种 形式 接口 除 sctp_data_io_event 以 外 的 所 有 事件 通 
知 。 尽 管 如 此 ， 并 非 所 有 实现 都 具备 这 样 的 行为 。 对 于 应 用 程序 开发 
人 员 来 说 ， 显 式 茜 止 (或 启用 ) 不 想 要 的 (或 想 要 的 ) 通知 是 最 好 的 
Ls 能 够 确保 不 论 代 码 移植 到 哪 种 操作 系统 ， 总 是 导致 所 期 望 的 行 


图 9-2 所 示 为 一 到 多 套 接 字典 型 用 法 的 时 间 线 图 。 服 务 器 启动 后 打 
开 一 个 套 接 字 ，bind 一 个 地 址 ， 调 用 Listen 以 允许 客户 建立 关联 ， 
然后 就 调用 sctp_recvmsg 阻 塞 于 等 待 第 一 个 消息 的 到 达 。 窗 户 局 动 
后 也 打开 一 个 套 接 字 ， 并 调用 sctp_sendto， 它 导致 隐 式 建立 关 
联 ， 而 数据 请 求 由 四 路 握手 的 第 三 个 分 组 朱 带 给 服务 器 。 服 务 器 收 到 
该 请 求 后 进行 处 理 并 向 该 客户 发 回 一 个 应 答 。 客 户 收 到 应 管 后 关闭 其 
套 接 字 ， 从 而 终止 其 上 的 关联 。 服 务 器 循环 回去 接收 下 一 个 消息 。 


SCTP 服 务 器 
socket i) | 
acl A EN H bindi} 


| listen (i 


| sctp recvmgg(?) -«—— 


EIPRE Tae) 
| socket {} PE ORK 
| Mie n | 
actp sendro() we -- SCTEPIR SS — La 
= COOKIE ECHO LAY tiii (itik) | 
| 
处 再 请 起 


eo 


Ha : pu _ eet p_sendmsg {| 


|ectp recvmsg() 4-—— — 


PING TH 


| closet) -=— 关联 终 本 


(0000 c IR BRE ED 


图 9-2 ”SCTP 一 到 多 形式 的 套 接 字 函数 


本 例子 展示 的 是 一 个 迭代 服务 器 ， 来 自 许多 关联 (也 就 是 许多 客 
P) 的 (可 能 交错 的 ) 消息 能 够 由 单个 控制 线程 处 理 。 在 SCTP 中 ， 一 
^ —8|Z BEES EHRISctp peeloffENZ& (9.12 节 ) AR 
许 组 合 迭 代 服 务 器 模型 和 并 发 服务 器 模型 ， 它 们 的 关系 如 下 。 


(1) sctp peeloffERZIUH T A — T — 51 RB EA BART 
定 的 关联 《如 一 个 长 期 持续 的 会 话 ) ， 独 自 构 成 一 个 一 到 一 式 套 接 
子 


o 


(2) WA EH EE En — 8 — REESE B8 9 n] Desa 6 HL CUBO 
线程 ， 或 者 遣送 给 为 它 派生 的 进程 《就 像 在 并 发 模型 中 那样 ) 。 


(3) SULTRY, =P AQREARAL TE OR A Be E NAAT UPR FH 
任何 剩余 关联 的 消 轧 。 


一 到 多 式 SCTP 套 接 字 是 一 个 类 型 为 SOCK_SEQPACKET， 人 协议 为 
IPPROTO_SCTP 的 网 际 网 套 接 字 〈 即 协议 族 为 AF_INET 或 
AF_INET6) 。 


9.3 sctp bindxER2N 


SCTP 服 务 器 可 能 希望 捆绑 与 所 在 主机 系统 相关 IP 地 址 的 一 个 子 
集 。 传 统 意 义 上 ，TCP 服 务 器 或 UDP 服务 器 要 么 捆绑 所 在 主机 的 某 个 
地 址 ， 要 么 捆绑 所 有 地 址 ， 而 不 能 捆绑 这 些 地 址 的 一 个 子 集 。 
sctp_bindx 函 数 允 许 SCTP 套 接 字 捆绑 一 个 特定 地 址 子 集 。 


#include <netinet/sctp.h> 


int sctp_bindx(int sockfd, const struct sockaddr *addrs, int 
addrcnt, int flags); 


功 则 为 96， 若 出 错 则 为 -1 


sockfdz H socket HACK [BIS] E BEY f UTE o 98 SB Xaddrszeé 
一 个 指向 紧凑 的 地 址 列表 的 指针 。 每 个 套 接 字 地 址 结构 紧 跟 在 前 一 个 
套 接 字 地 址 结构 之 后 ， 中 间 没 有 填充 子 节 。 例 子 见 图 9-4。 


传递 给 sctp_bindx 的 地 址 个 数 由 addrcnt 参 数 指 定 。flags 参 数 指 
导 sctp_bindx 调 用 执行 图 9-3 所 示 的 两 种 行为 之 一 。 


SCTP BINDX ADD ADDR | 往 套 接 字 中 添加 地 址 


SCTP BINDX REM ADDR 从 套 接 宁 中 删除 地 址 


图 9-3 sctp bind x 画 数 所 用 的 flags 参 数 


HEURA 
AF INET 
192.168.1.1 


Bizeof(sockaddr in()) 


协议 旅 为 


AF IKET6 sizeof(sockaddr in6()) 


fe80::1 


EU 
addrent =3 AF TNRT sizeof (sockaddr_in{}) 
10.0.1.2 J 


RN eee 


图 9-4 ”SCTP 调 用 所 需 的 紧 竣 地 址 列表 格式 


sctp_bindx 调 用 既 可 用 于 已 绑 定 的 套 接 字 ， 也 可 用 于 未 绑 定 的 
套 接 字 。 对 于 未 绑 定 的 套 接 字 ，sctp_bindx 调 用 将 把 给 定 的 地 址 集 
合 捆绑 到 其 上 。 对 于 已 绑 定 的 套 接 字 ， 若 指定 
SCTP_BINDX_ADD_ADDR 则 把 额外 的 地 址 加 入 确 接 字 描 述 符 ， 知 指定 
SCTP_BINDX_REM_ADDR 则 从 套 接 字 描 述 符 的 已 加 入 地 址 中 移 除 给 定 
的 地 址 。 如 果 在 一 个 监听 套 接 字 上 执行 sctp_bindx 调 用 ， 那 么 将 来 
产生 的 关联 将 使 用 新 的 地 址 配置 ， 已 经 存在 的 关联 则 不 受 影响 。 传 递 
给 sctp_bindx 的 两 个 标志 是 互 不 的 ， 如 果 同 时 指定 ， 调 用 就 会 失 
败 ， 返 回 的 错误 码 为 EINVAL。 所 有 套 接 字 地 址 结构 的 端口 号 必须 相 
同 ， 而 且 必 须 与 已 经 绑 定 的 端口 号 相 匹 配 ， 否 则 调用 就 会 失败 ， 返 回 
EINVAL 错 误 码 。 


如 果 一 个 端点 支持 动态 地 址 特性 ， 指 定 SCTP_BINDX_ADD_ADDR 
或 SCTP_BINDX_REM_ADDR 标 志 调 用 sctp_bindx 将 导致 该 端点 向 对 
端 发 送 一 个 合适 的 消息 ， 以 修改 对 端的 地 址 列表 。 由 于 增 减 一 个 已 连 
接 关 联 的 地 址 只 是 一 个 可 选 的 功能 ， 因 此 不 支持 本 功能 的 实现 将 返回 
EOPNOTSUPP。 注 意 ， 本 功能 正确 操作 要 求 两 个 端点 都 支持 这 个 特 
性 。 本 特性 对 于 支持 动态 接口 供给 的 系统 可 能 有 用 ， 举 例 来 说 ， 如 果 
调 出 一 个 新 的 以 太 网 接口 ， 那 么 应 用 进程 可 以 指定 
SCTP_BINDX_ADD_ADDR 标 志 在 已 经 存在 的 连接 上 启动 使 用 这 个 接 
m o 


9.4 sctp connectxENZA 


#include <netinet/sctp.h> 


int sctp connectx(int sockfd, const struct sockaddr *addrs, int 


addrcnt); 


We, Zt -1 


274 
sctp. connectxii HUE TX EE] — 74 OU HL « HAE 
addrs 参 数 中 指定 addrcnt 个 全 部 属于 同一 对 端的 地 址 。addrs 参 数 是 一 
个 紧 凌 的 地 址 列表 ， 如 图 9-4 所 示 。SCTP 栈 使 用 其 中 一 个 或 多 个 地 址 
建立 关联 * 列 在 cqdrs 参 数 中 的 所 有 地 址 帮 被 认为 是 有 效 的 经 过 证 实 的 


返回 : BAH 


95 sctp getpaddrsERZX 


getpeername 函 数 不 是 为 支持 多 答 概 念 的 传输 协议 设计 的 ， 当 
用 于 SCTP 时 它 仅 仅 返 回 主 目的 地 址 。 如 果 需 要 知道 对 端的 所 有 地 址 ， 
那么 应 该 使 用 Sctp_getpaddrs 函 数 。 


#include <netinet/sctp.h> 


int sctp_getpaddrs(int sockfd, sctp_assoc_t id, struct sockaddr 


**addrs); 


返回 : a AANA fe Eaddrs PES) 


WY HER, A HEMI -1 


sockfd 3 E EI socket KÄORE EESTI id UE $1 
多 式 套 接 字 的 关联 标识 ， 而 一 到 一 式 套 接 字 则 会 忽略 该 字段 。addrs 参 
数 是 一 个 地 址 指针 ， 而 地 址 内 容 是 由 本 函数 动态 分 配 并 填 入 的 紧 并 的 
地 址 列表 。 关 于 这 个 返回 值 的 细节 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 
调用 者 应 该 使 用 sctp_freepaddrs 释 放 所 分 配 的 资源 。 


9.6 sctp freepaddrsERZX 


函数 sctp_freepaddrs 函 数 释放 由 sctp_getpaddrs 函 数 分 配 
的 资源 。 


#include <netinet/sctp.h> 


void sctp freepaddrs(struct sockaddr *addrs); 


addrs 参 数 是 指向 由 sctp_getpaddrs 返 回 的 地 址 数组 的 指针 。 


9.7 sctp getladdrsERZX 


sctp getladdrsERZXH] T 34 BUB TAR SERA o Du 
要 知道 一 个 本 地 端点 究竟 在 使 用 哪些 本 地 地 址 时 (它们 可 能 是 主机 所 
有 地 址 的 某 个 子 集 ) ， 可 以 调用 本 函数 。 


#include <netinet/sctp.h> 


int sctp_getladdrs(int sockfd, sctp_assoc_t id, struct sockaddr 
**addrs); 


返回 : 铬 成 功 则 为 存放 在 aqdrs 中 的 本 闻 地 址 


数 ， 专 出错 则 为 -1 
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sockfa 参 数 是 由 socket 函 数 返 回 的 套 接 字 描 述 符 。id 参 数 是 一 到 
多 式 套 接 字 的 关联 标识 ， 而 一 到 一 式 套 搂 字 则 会 忽略 它 。addrs 参 数 是 
一 个 地 址 指针 ， 而 地 址 内 容 是 由 本 画 数 动态 分 配 并 填 入 的 紧 读 的 地 址 
列表 。 关 于 这 个 返回 值 的 细 下 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 调 用 
者 应 该 使 用 sctp_freeladdrs 释 放 所 分 配 的 资源 。 


9.8 sctp freeladdrsERZX 


sctp_freeladdrsiAveitHsctp_getladdrsHAa BOR Ý 
源 。 


#include <netinet/sctp.h> 


void sctp freeladdrs(struct sockaddr *addrs); 


addrs 参 数 是 指向 由 sctp_getladdrs 返 回 的 地 址 数组 的 指针 。 


9.9 sctp_sendmsgHat 


通过 使 用 伴随 辅助 数据 的 sendmsg 函 数 (第 14 章 ) ， 应 用 进程 能 
够 控制 SCTP 的 各 种 特性 。 然 而 既然 使 用 辅助 数据 可 能 不 大 方便 ， 许 多 
SCTP 实 现 提 供 了 一 个 辅助 函数 库 调 用 (有 可 能 作为 系统 调用 实现 ) ， 
以 方便 应 用 进程 使 用 SCTP 的 高 级 特性 。 


#include <netinet/sctp.h> 


ssize_t sctp_sendmsg(int sockfd, const void *msg, size_t msgsz, 
const struct sockaddr *to, socklen_t tolen, 
uint32_t ppid, 
uint32 t flags, uinti16 t stream, 
uint32 t timetolive, uint32 t context); 


返回 : ARDA Pt 


BFA, Gut 


sctp_sendmsg 的 使 用 者 以 指定 更 多 参数 为 代价 简化 了 发 送 方 
法 。sockfd 参 数 是 由 socket ERZIGR [B] ETE d lUe > msg XU ml 
— “4 EA msgszF TAX, ELANCE AK 28 X mim sto e tolen 
参数 指定 存放 在 to 中 的 地 址 长 度 。ppid 参 数 指定 将 随 数据 块 传递 的 净 
荷 协议 标识 符 。Hhags 人 参数 将 传递 给 SCTP 栈 ， 用 以 标识 任何 SCTP 选 
项 ， 图 7-16 给 出 了 这 个 参数 的 有 效 取 值 。 
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调用 者 在 stream 人 参数 中 指定 一 个 SCTP 流 号 。 调 用 者 可 以 在 lifetime 
参数 中 以 毫秒 为 单位 指定 消息 的 生命 期 ， 其 中 0 表示 无 限 生 命 期 。 
context 参 数 用 于 指定 可 能 有 的 用 户 上 下 文 。 用 户 上 下 文 把 通过 消息 通 
知 机 制 收 到 的 某 次 失败 的 消息 发 送 与 某 个 特定 于 应 用 的 本 地 上 下 文 关 
联 起 来 。 举 例 来 说 ， 要 发 送 一 个 消息 到 流 号 1， 发 送 标志 设 为 
MSG PR SCTP TTL, ^4:4£pEHix7j10002& &b, ARNERI 7324, 
上 下 文 为 52， 调 用 格式 如 下 : 


ret = sctp_sendmsg(sockfd, 
data, datasz, &dest, sizeof(dest), 
24, MSG_PR_SCTP_TTL, 1, 1000, 52); 


这 种 方法 比分 配 必 要 的 辅助 数据 空间 并 在 msghdr 结 构 中 设置 合 
适 的 结构 容易 些 。 注 意 ， 如 果实 现 把 sctp_sendmsg 郴 数 映 射 成 
sendmsg 函 数 ， 那 么 Sendmsg 的 fags 参 数 被 设 为 0。 


9.10 sctp recvmsgERZX 


与 Sctp_sendmsg 一 样 ，sctp_recvmsg 函 数 也 为 SCTP 的 高 级 
特性 提供 一 个 更 方便 用 户 的 接口 。 使 用 本 函数 不 仅 能 获取 对 端的 地 
址 ， 也 能 获取 通常 伴随 recvmsg 函 数 调用 返回 的 msg_flags 参 数 

(如 MSG_NOTIFICATION 和 MSG_EOR 等 ) 。 本 函数 也 允许 获取 已 读 
入 消 乱 绥 冲 区 中 的 伴随 所 接收 消 恩 的 sctp_sndrcvinfo 结 构 。 注 
意 ， 如 果 应 用 进程 想 要 接收 sctp_sndrcvinfo 信 息 ， 那 么 必须 使 用 
SCTP_EVENTS 套 接 字 选 项 预订 sctp_data_io_event (默认 情况 下 
开启 ) 。 


#include <netinet/sctp.h> 
ssize_t sctp_recvmsg(int sockfd, void *msg, size_t msgsz, 


struct sockaddr *from, socklen_t *fromlen, 
struct sctp_sndrcvinfo *sinfo, 


int *msg flags); 


返回 : 若 成 功 则 为 所 读 字 市 


数 ， 奎 出 错 则 为 -1 


本 函数 调用 返回 时 ，msg 参 数 所 指 绥 冲 区 中 被 填 入 最 多 msgsz 字 六 
的 数据 。 消 息 发 送 者 的 地 址 存放 在 from 参 数 中 ， 地 址 结构 大 小 存放 在 
fromlen 参 数 中 。msg_flags 参 数 中 存放 可 能 有 的 消息 标志 。 如 有 果 通 知 的 
sctp data io event$f/HH (默认 情形 ) ， 就 会 有 与 消息 相关 的 
细节 信息 来 填充 sctp_sndrcvinfo 结 构 。 注 意 ， 如 果实 现 把 
sctp_recvmsg 画 数 映射 成 recvmsg 画 数 ， 那 和 recvmsg 的 flags 参 
数 被 设 为 0。 
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9.11 sctp_opt_infowWa 


sctp opt infoEHNZIUÉZJZCIZ7JSCTPÍE HgetsockoptEXZIti 
那些 实现 提供 的 。getsockopt 无 法 文 持 SCTP 的 原因 在 于 有 些 SCTP 
套 接 字 选项 (如 SCTP_STATUS) 需要 一 个 入 出 (in out) 变量 传递 
关联 标识 。 对 于 无 法 为 getsockopt 函 数 提供 入 出 变量 的 系统 来 说 ， 
只 能 使 用 sctp_opt_info 函 数 。 对 于 FreeBSD 之 类 人 允许 在 套 接 字 选项 
中 使 用 出 入 变量 的 系统 来 说 ，sctp_opt_info 是 一 个 把 参数 重新 包 
装 到 合适 的 getsockopt 调 用 中 的 库 函 数 。 从 可 移植 性 考虑 ， 应 用 程 
序 应 该 对 需要 入 出 变量 的 所 有 选项 (7.1077) 使 用 sctp_opt_info 
函数 。 


#include <netinet/sctp.h> 


int sctp_opt_info(int sockfd, sctp_assoc_t assoc_id, int opt, 
void *arg, socklen t *siz); 


返回 : RAW A 


普 则 为 -1 


Sockjfa 参 数 给 出 获取 其 上 和 套 接 字 选 项 信息 的 套 接 字 描述 符 。 
asSs0cC_id 人 参数 给 出 可 能 存在 的 关联 标识 。opt 人 参数 是 SCTP 的 套 接 字 选 项 
〈 见 7.10 节 ) 。arg 给 出 套 接 字 选 项 参数 ，siz 是 一 个 socklen_t 类 型 指 

针 ， 用 于 存放 参数 的 大 小 。 


9.12 sctp_peelof fH 


如 前 所 述 ， 有 可 能 从 一 个 一 到 多 式 套 接 字 中 抽取 一 个 关联 ， 构 成 
单独 一 个 一 到 一 式 套 接 字 。 其 语义 很 像 珊 有 一 个 额外 参数 的 accept 
函数 。 调 用 者 把 一 到 多 式 套 接 字 的 sockfa 和 待 抽取 的 关联 标识 id 传递 给 
函数 调用 。 调 用 结束 时 将 返回 一 个 新 的 套 接 字 摘 述 符 ， 写 是 一 个 与 所 
请 求 关 联 对 应 的 一 到 一 式 套 接 字 摘 述 符 。 


#include <netinet/sctp.h> 


int sctp_peeloff(int sockfd, sctp_assoc_t id); 


返回 : AM A Th PBS 


9.13 shutdown 函数 


6.6 节 讨论 的 shutdown 函 数 可 用 于 一 到 一 式 接口 的 SCTP 端 点 。 由 
于 SCTP 设 计 成 不 提供 半 关 闭 状态 ，SCTP 端 点 对 shutdown 调 用 的 反 
应 不 同 于 TCP 端 点 。 当 相互 通信 的 两 个 SCTP 端 点 中 任何 一 个 发 起 关联 
终止 序列 时 ， 这 两 个 端点 都 得 把 已 排队 的 任何 数据 发 送 掉 ， 然 后 关闭 
关联 。 关 联 主动 打开 的 发 起 端点 改 用 shutdown 而 不 是 close 的 可 能 
原因 是 : 同一 个 端点 可 用 于 连接 到 一 个 新 的 对 端 端点 。 与 TCP 不 同 ， 
新 的 套 接 字 打开 之 前 不 必 调 用 close。SCTP 人 允许 一 个 端点 调用 
shutdown, shutdownZi 2 Jn. XT 533). UEH RETE 
接 到 一 个 新 的 对 端 。 注 意 ， 如 果 这 个 端点 没有 等 到 SCTP 关 联 终止 序列 
结束 ， 新 的 连接 就 会 失败 。 图 9-5 给 出 了 这 种 情形 下 的 典型 函数 调用 。 
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— —SACK'SRUTDOWN | 
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图 9-5 ”调用 shutdown 关 闭 一 个 SCTP 关 联 


注意 ， 图 9-5 标 出 用 户 接 收 MSG_NOTIFICATION 事 件 。 如 果 用 户 
未 曾 预 订 接 收 这 些 事 件 ， 那 么 返回 的 是 结果 长 度 为 0 的 read 调 用 。6.6 
节 讲 解 了 shutdown 了 范 数 对 TCP 的 效果 。 对 于 SCTP，shutdown 函 数 
的 howto 参 数 语义 如 下 。 


read VISG_NOTITICATION 


SHUT RD 与 6.6 节 讨论 的 对 于 TCP 的 语义 等 同 ， 没 有 任何 SCTP 
协议 行为 发 生 。 


SHUT WR 人 禁止 后 续 发 送 操 作 ， 激 活 SCTP 关 联 终止 过 程 ， 以 此 
终止 当前 关联 。 注 意 ， 本 操作 不 提供 半天 闭 状态 ， 不 过 允许 本 地 端点 
读 取 已 经 排队 的 数据 ， 这 些 数据 是 对 端 在 收 到 SCTP 的 SHUTDOWN 消 息 
之 前 发 送 给 本 端的 。 


SHUT RDWR 禁止 所 有 read 操 作 和 write 操 作 ， 激 活 SCTP 关 联 


终止 过 程 。 传 送 到 本 地 端点 的 任何 已 经 排队 的 数据 都 得 到 确认 ， 然 后 


9.14 通知 


SCTP 为 应 用 程序 提供 了 多 种 可 用 的 通知 。SCTP 用 户 可 以 经 由 这 

些 通知 追踪 相关 关联 的 状态 。 通 知 传递 的 是 传输 级 的 事件 ， 包 括 网 络 

状态 变动 、 关 联 启 动 、 远 程 操 作 错 误 以 及 消息 不 可 递送 。 不 论 是 一 到 

一 式 接口 还 是 一 到 多 式 接口 ， 默 认 情 况 下 除 sctp_data_io_event 

ee 。 我 们 将 在 23.7 节 查看 一 个 使 用 通知 的 
IZ o 


使 用 SCTP_EVENTS 套 接 字 选项 可 以 预订 8 个 事件 。 其 中 7 个 事件 
产生 称 为 通知 (notification) 的 额外 数据 ， 通 知 本 身 可 经 由 普通 的 套 
接 字 摘 述 符 获 取 。 当 产生 它们 的 事件 发 生 时 ， 这 些 通知 内 藤 在 数据 中 
加 入 套 接 字 描 述 符 。 在 预订 相应 通知 的 前 提 下 读 取 某 个 套 接 字 上 时， 用 
户 数 据 和 通知 将 在 套 接 字 绥 冲 区 中 交错 出 现 。 为 了 区 分 来 自 对 端的 数 
据 和 由 事件 产生 的 通知 ， 用 户 应 该 使 用 recvmsg 函 数 或 
sctp_recvmsg 函 数 。 如 果 所 返回 的 数据 是 一 个 事件 通知 ， 那 么 这 两 
个 函数 返回 的 msg_f1ags 参 数 将 含有 MSG_NOTIFICATION 标 志 。 这 
个 标志 告知 应 用 进程 刚刚 读 入 的 消息 不 是 来 自 对 端的 数据 ， 而 是 来 目 
本 地 SCTP 栈 的 一 个 通知 。 


每 种 通知 都 采用 标签 一 长 度 一 值 (tag-length-value, TLV) 格式 ， 
其 中 前 8 个 字 节 给 出 通知 的 类 型 和 总 长 度 。 开 启 
sctp_data_io_event 事 件 (这 一 点 对 于 SCTP 的 两 种 接口 都 是 默认 
设置 ) 将 导致 每 次 读 入 用 户 数据 都 收 到 一 个 sctp_sndrcvinfo 结 
构 。 一 般 情况 下 ， 这 些 信息 通过 调用 recvmsg 作 为 辅助 数据 获取 。 应 
用 进程 也 可 以 调用 sctp_recvmsg， 同 样 的 信息 将 被 填写 到 由 某 个 指 
针 指 出 的 sctp_sndrcvinfo 结 构 中 。 


含有 SCTP 错 误 起 因 代 码 字段 的 通知 有 两 种 。 该 字段 的 值 列 在 RFC 
2960 [Stewart et al. 2000] 的 节 以 及 
http://www. iana.org/assignments/sctp-parametersH']“CAUSE CODES”— 
T 
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通知 的 格式 如 下 : 


struct sctp_tlv { 
u_inti6_t sn type; 
u inti16 t sn flags; 
u int32 t sn length; 
}; 


/* notification event */ 
union sctp_notification { 
struct sctp_tlv sn_header; 


struct sctp_assoc_change sn_assoc_change; 
struct sctp_paddr_change sn_paddr_change; 
struct sctp remote error sn remote error; 
struct sctp send failed sn send failed; 
struct sctp shutdown event sn shutdown event; 
struct sctp adaption event sn adaption event; 
struct sctp pdapi event sn pdapi event; 


注意 ，sn_header 字 段 用 于 解释 类 型 值 ， 以 便 译 解 出 所 处 理 的 实 
际 消息 。 图 9-6 剖 析 了 sn_header .sn_type 的 取 值 与 SCTP_EVENTS 
套 接 字 选 项 中 使 用 的 预订 字段 之 间 的 对 应 关系 。 


sn type 预订 子 段 


SCTP_ASSOC_CHANGE sctp association event 
SCTP PEER ADDR CHANGE sctp address event 
SCTP REMOTE ERROR sctp peer error event 


SCTP SEND FAILED sctp send failure event 
SCTP SHUTDOWN EVENT sctp shutdcwa evert 

SCTP ADAPTION INDICATION sctp adaption layer ever 
SCTP PARTIAL DELIVERY EVENT sctp partial delivery event 


图 9-6 ”sn_type 字 段 和 事件 预订 字段 


每 种 通知 有 各 目的 结构 ， 给 出 在 传输 中 发 生 的 相应 事件 的 具体 信 


o 
JON 


1. SCTP_ASSOC_CHANGE 


本 通知 告知 应 用 进程 关联 本 里 发 生变 动 : 或 者 已 开始 一 个 新 的 天 
联 ， 或 者 已 结束 一 个 现 有 的 关联 。 本 事件 提供 的 信息 定义 如 下 : 


struct sctp_assoc_change { 
i _t sac_type; 
sac_flags; 
sac_length; 
sac_state; 


sac_error; 

sac_outbound_streams; 

sac_inbound_streams; 
sctp_assoc_t sac_assoc_id; 
uint8 t sac info[]; 


}; 


其 中 sac_state 给 出 关联 上 发 生 的 事件 类 型 ， 取 如 下 值 之 一 。 
281 


SCTP_COMM_UP 本 状态 指示 某 个 新 的 关联 刚刚 启动 。 其 中 内 入 
流 和 外 出 流 字段 分 别 指 出 各 自 方向 有 多 少 流 可 用 。 关 联 标识 字段 给 
这 个 关联 在 本 地 SCTP 栈 的 唯一 访问 标识 。 


SCTP COMM LOST 本 状态 指示 由 关联 标识 字段 给 出 的 关联 已 经 
关闭 ， 原 因 既 可 以 是 触发 了 某 个 不 可 达 门 限 〈 例 如 本 地 SCTP 端 点 多 次 
超时 触及 门限 ， 表 明 对 端 不 再 可 达 ) ， 也 可 以 是 对 端 执行 了 对 于 该 关 
联 的 中 止 性 关闭 〈 通 常 使 用 SO_LINGER 套 接 字 选项 或 以 MSG_ABORT 
on 。 特定 于 用 户 的 信息 存放 在 本 通知 的 sac_info 
字段 。 


SCTP_RESTART 本 状态 指示 对 端 已 经 重启 。 本 通知 最 可 能 的 原 
因 是 对 端 主机 拓 溃 并 重新 启动 了 。 应 用 进程 应 该 验证 每 个 方 回 流 的 数 
目 ， 因 为 这 些 值 可 能 在 重启 过 程 中 发 生变 动 。 


SCTP SHUTDOWN COMP 本 状态 指示 由 本 地 端点 激发 的 关联 终 
止 过 程 (或 者 通过 调用 shutdown， 或 者 通过 以 MSG_EOF 标 志 使 用 
sendmsg) 已 经 结束 。 对 于 一 到 一 式 接口 ， 收 到 本 通知 后 ， 相 应 套 接 
字 描 述 符 可 再 次 用 于 连接 到 另 一 个 对 端 。 


SCTP CANT STR ASSOC 本 状态 指示 对 端 对 于 本 端的 关联 建立 
笑 试 (例如 INIT 消 息 ) 未 曾 给 出 响应 。 


sac_error 字 段 存 放 导 致 本 天 联 变动 的 SCTP 协 议 错误 起 因 代码 。 
sac outbound _streams 和 sac_inbound_streams 字 段 存 放 本 关联 上 每 个 方 
回 协 定 的 流 数目 。sac_assoc_id 字 段 存 放 本 关联 的 唯一 句柄 ， 不 论 是 套 
接 字 选项 还 是 以 后 的 通知 都 可 用 它 标 识 本 关联 。sac_info 字 段 存 放 用 户 
可 用 的 其 他 信息 。 举 例 来 说 ， 如 果 某 个 关联 被 对 端的 某 个 用 户 目 定义 
音 误 中 止 ， 这 个 错误 束 存 放 在 该 字段 中 。 
2. SCTP_PEER_ADDR_CHANGE 

本 通知 告知 对 端的 某 个 地 址 经 历 了 状态 变动 。 这 种 变动 既 可 以 是 
失败 性 质 (例如 目的 地 不 对 所 发 送 的 消息 作出 响应 ) ， 也 可 以 是 恢复 
性 质 〈 例 如 早先 处 于 故障 状态 的 某 个 目的 地 恢复 正常 ) 。 伴 随地 址 变 
动 的 结构 如 下 : 
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struct sctp_paddr_change { 
u_inti6_t spc type; 
u inti16 t spc flags; 
u int32 t spc length; 
struct sockaddr storage spc aaddr; 
u int32 t spc state; 
u int32 t spc error; 


sctp assoc t spc assoc id; 


其 中 spc_aaddr 字 段 存 放 本 事件 所 影响 的 对 端 地 址 。spc_state 字 段 
存放 图 9-7 说 明 的 值 之 一 。 


SCTF ADDR ADDED 地 址 现 已 加 入 关联 

SCTF ADDR AVAILABLE Jh hU er 

SCIL ADDR CCNF-RMED 地 址 现 已 证 实 有 效 
SCLP_ADDR_MADE PRIM 地 此 现 已 成 为 主 日 的 地 址 
SCTE_ADDR_REMCVED 地 址 不 再 局 于 关联 


SCTF ADDR UNREACHABL3 地 址 不 再 可 这 


图 9-7 ”SCTP 对 端 地 址 状态 通知 


当 一 个 地 址 被 声明 为 SCTP_ADDR bcr AIK 
到 该 地 址 的 任何 数据 将 被 重新 路 由 到 一 个 候选 地 址 。 注 意 ， 其 中 一 些 
状态 仅仅 适用 于 支持 动态 地 址 选项 的 SCTP 实 现 (例如 
SCTP_ADDR_ADDED 和 SCTP_ADDR_REMOVED) 。 


spc_error 字 段 存放 用 于 提供 关于 事件 更 详细 信息 的 通知 错误 代 
码 ，spc_assoc_id 存 放 关 联 标识 。 


3.SCTP_REMOTE_ERROR 


XU Em 54, AY peA ZUR AZ IK — T RAE EEEH ERTH As. o CHEE HT 
以 指示 当前 关联 的 各 种 出 错 条 件 。 pe EAI 整个 错误 块 
(error chunk) 将 以 内 栎 格式 传递 给 应 用 进程 。 本 消息 的 格式 如 下 : 


struct sctp_remote_error { 
u_inti6_t sre type; 
u inti16 t sre flags; 
u int32 t sre length; 


u inti16 t sre error; 
sctp assoc t sre assoc id; 
u int8 t sre data[]; 


h 


其 中 sre_error 存 放 SCTP 协 议 错 误 起 因 代 码 ，sre_assoc_id 存 放 关 联 
标识 ， sre_data 以 内 骨 格 式 存 放 完 整 的 错误 。 
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4.SCTP_SEND_FAILED 


无 法 递送 到 对 端的 消 忆 通 过 本 通知 送 回 用 户 。 本 通知 之 后 不 久 通 
党 跟 有 一 个 关联 故障 通知 。 大 多 数 情 况 下 一 个 消 居 不 能 锌 递送 的 唯一 
原因 且 关 联 已 经 失效 。 关 联 有 效 前 提 下 消息 递送 失败 的 唯一 情况 是 使 
用 了 SCTP 的 部 分 可 靠 性 扩展 。 本 通知 提供 的 结构 如 下 : 


struct sctp_send_failed { 
u inti16 t ssf type; 
u inti16 t ssf flags; 
u int32 t ssf length; 
u int32 t ssf error; 


struct sctp sndrcvinfo ssf info; 
sctp assoc t ssf assoc id; 

u int8 t ssf data[]; 

}; 


其 中 ssf_flags 可 取 以 下 两 个 值 之 一 。 


e SCTP_DATA_UNSENT: 指示 相应 消息 无 法 发 送 到 对 端 (例如 流 
控 导致 该 消息 无 法 在 其 生命 期 终止 之 前 送出 ) ， 因 此 对 端 永远 收 
不 到 该 消息 。 

e SCTP_DATA_SENT: 指示 相应 消息 已 经 至 少 发 送 到 对 端 一 次 ， 然 
而 对 端 一 直 没 有 确认 。 这 种 情况 下 ， 对 端 可 能 收 到 了 该 消息 ， 不 
过 无 法 给 出 确认 。 


这 种 区 分 对 于 事务 性 协议 可 能 比较 重要 ， 因 为 这 样 的 协议 可 能 需 
要 基于 是 否 收 到 某 个 给 定 消息 而 采取 不 同 的 行为 以 恢复 一 个 破裂 的 连 
接 。ssf_error 字 有 段 阁 不 为 0 则 存放 一 个 特定 于 本 通知 的 错误 代码 。 
ssf_info 字 段 乔 有 的 话 提 供 的 是 发 送 数据 时 传递 给 内 核 的 信息 (如 流 数 
目 、 上 下 文 等 ) 。ssf_assoc_id 存 放 的 是 关联 标识 ，ssf_data 存 放 未 能 递 
送 的 消息 本 喘 。 


5.SCTP_SHUTDOWN_EVENT 


当 对 端 发 送 一 个 SHUTDOWN 块 到 本 地 端点 时 ， 本 通知 被 传递 给 
应 用 进程 。 本 通知 告知 应 用 进程 在 相应 套 接 字 上 不 再 接受 新 的 数据 。 
所 有 当前 已 排队 的 数据 将 被 发 送出 去 ， 发 送 完毕 后 相应 关联 就 被 终 
止 。 本 通知 的 格式 如 下 : 


struct sctp_shutdown_event { 
uinti6 t sse type; 
uinti6 t sse flags; 


uint32 t sse length; 
sctp assoc t sse assoc id; 


i 


a 其 中 sse_assoc_id 存 放 正 在 关闭 中 不 再 接受 数据 的 那个 关联 的 关联 
INIR ° 


6.SCTP_ADAPTION_INDICATION 


有 些 实现 文 持 适应 层 指示 参数 (adaption layer indication 
parameter) 。 该 参数 在 INIT 和 INITACK 中 交换 ， 用 于 通知 对 端 将 执行 
什么 类 型 的 应 用 适应 行为 。 本 通知 的 格式 如 下 : 


struct sctp_adaption_event { 
u_int16_t sai_type; 
sai_flags; 
sai_length; 


sai_adaption_ind; 
sctp_assoc_t sai_assoc_id; 


, 


其 中 sai_assoc_id 字 上 段 给 出 本 适应 层 通知 的 关联 标识 。 
sai_adaptionm_ind 字 段 给 出 对 端 在 INIT 或 INITACK 消 息 中 传递 给 本 地 主 
机 的 32 位 整数 。 外 出 适应 层 使 用 SCTP_ADAPTION_LAYER 套 接 字 选项 

47.10 节 ) 设置 。 适 应 层 INITINITACK 选 项 在 [Stewart et al. 2003b| 
中 讲述 ， |Stewart etal. ] 给 出 了 本 选项 在 远程 直接 内 存 访问 /直接 数 
据 放置 中 的 示例 用 法 。 


7.SCTP_PARTIAL_DELIVERY_EVENT 


部 分 递送 应 用 程序 接口 用 于 经 由 套 接 字 缓 冲 区 向 用 户 传送 大 消 
息 。 考 虑 一 个 用 户 写 出 单个 大 小 为 4MB 的 消息 。 如 此 大 小 的 消息 有 可 
能 耗 尽 系统 资源 。 要 是 一 个 SCTP 实 现 没 有 在 整个 消息 到 达 之 前 就 开始 
递送 它 的 机 制 ， 那 就 无 法 处 理 这 样 的 消息 。 能 够 如 此 递送 消息 的 实现 
称 为 具备 部 分 递送 API 。 部 分 递送 API 由 SCTP 实 现 如 此 调用 : 置 空 


msg_f1lags 字 段 发 送 一 个 消息 的 各 部 分 数据 ， 直 到 准备 递送 最 后 一 部 
分 数据 为 止 。 发送 最 后 一 部 分 数据 时 把 msg_f1ags 字 段 设置 为 
MSG_EOR。 注 意 ， 如 果 应 用 进程 准备 接收 大 消息 ， 那 就 应 该 使 用 
recvmsg 或 sctp_recvmsg， 以 便 碍 看 msg_f1ags 字 段 确 定 是 否 出 
现 本 条 件 。 


有 些 情况 下 ， 部 分 递送 API 需 要 向 应 用 进程 传递 状态 信息 。 举 例 
来 说 ， 如 果 需 要 中 止 一 次 部 分 递送 API 调 用 ， 
SCTP_PARTIAL_DELIVERY_EVENT 通 知 就 得 送 给 接收 应 用 进程 。 本 
通知 的 格式 如 下 : 


285 


struct sctp_pdapi_event { 
uinti6 t pdapi type; 
uinti6 t pdapi flags; 
uint32 t pdapi length; 


uint32 t pdapi indication; 
sctp assoc t pdapi assoc id; 


其 中 pdapi_assoc_id 字 段 给 出 部 分 递送 API 事 件 发 生 的 关联 标识 。 
pdapi_indication 存 放 发 生 的 事件 。 目 前 该 字段 的 唯一 有 歼 值 是 
SCTP_PARTIAL_DELIVERY_ABORTED， 它 指出 当前 活跃 的 部 分 递送 
已 被 中 止 。 


9.15 小结 


SCTP 为 应 用 程序 开发 人 员 提 供 了 两 个 接口 式样 : 为 便于 移植 到 
SCTP 而 基本 上 与 现 有 TCP 应 用 程序 兼容 的 一 到 一 式 ， 以 及 允许 发 挥 
SCTP 所 有 特性 的 一 到 多 式 。sctp_peeloff 了 画 数 提供 了 从 一 种 式样 
的 关联 中 抽取 出 另 一 种 式样 的 关联 的 一 种 方法 。SCTP 还 提供 不 少 传输 
事件 通知 ， 应 用 进程 可 以 预订 它们 。 这 些 事件 有 助 于 应 用 进程 更 好 地 
管理 所 维护 的 关联 。 


既然 SCTP 是 多 和 窒 的 ， 第 4 章 中 讲解 的 标准 套 接 字 函 数 就 不 再 都 够 
用 。 诸 如 sctp_bindx、sctp_connectx、sctp_getladdrs、 
sctp_getpaddrs 等 函数 提供 了 更 好 地 控制 和 查看 众多 地 址 的 方法 ， 
这 些 地 址 共同 构成 一 个 SCTP 关 联 。 诸 如 sctp_sendmsg 和 
scpt_recvmsg 等 工具 函数 可 以 简化 这 些 高 级 特性 的 使 用 。 我 们 将 在 
第 10 章 和 人 第 23 章 中 通过 例子 详细 探讨 本 章 引 入 的 许多 概念 。 


习题 
91 什么 情形 下 应 用 程序 开发 人 员 最 可 能 使 用 sctp_peeloff 函 
BL? 


9.2 ”在 讨论 一 到 多 式 接 口 时 我 们 说 过 “ 当 一 个 客户 关闭 其 关联 
时 ， 其 服务 器 也 将 目 动 天 闭 同一 个 关联 ”"， 请 说 明 原 因 。 


9.3 ”为 什么 必须 使 用 一 到 多 式 接 口才 能 在 四 路 握手 的 第 三 个 分 组 
uS (提示 : 在 关联 建立 阶段 必须 具备 数据 发 送 能 力 才 能 这 
人 o 


€ TENT ATTE. P ACIE UU ERE TERES — TB VUT- AT TH BTE 
E! 


9.5 “9.7 节 指出 本 地 地 址 集 可 能 是 所 绑 定 地 址 的 某 个 合适 的 子 集 。 
IXBTEIT ATE TRE 
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_ SCTP XF IRA aster D 


10.1 概述 


我 们 将 在 本 章 使 用 第 4 章 和 第 9 章 中 介绍 的 基本 函数 编写 一 个 完整 
的 一 到 多 式 SCTP 客 户 /服务 右 程 序 例子 。 这 个 简单 的 例子 类 似 于 第 5 对 
Pee HAT AR Sam, DTH PIPTA o 


(1) 客户 从 标准 输入 读 入 一 行文 本 ， 并 发 送 给 服务 右 。 该 文本 行 遵 
i [#]text 格 式 ， 方 括 弧 中 的 数字 是 在 其 上 发 送 该 文本 消 轧 的 SCTP 
Vi ? 

(2) ARS di ARO PS AIA, TUER EEA BRS 
增 1， 再 在 新 的 流 号 上 发 送 回 同一 个 文本 消息 给 客户 。 

(3) 客户 从 网 络 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 ， 内 容 包 
括 流 号 、 流 序列 号 和 文本 串 。 

图 10-1 摘 述 了 这 个 人 简单 的 客户 /服务 器 ， 并 标 出 了 用 于 输入 和 输出 
AY ERB ° 


fgets 


标准 输入 一 如 serp |sctp_sendmeg BcLp recvasg 


setp recvnsg sctp_senamsg 


标准 输出 prins | 


图 10-1 简单 的 SCTP 流 分 回 射 客 户 / 服 务 器 
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KERE SARK as Z Em T PATEBIT FH ek, ISI 
整个 关联 是 全 双 工 的 。fgets 和 fputs 这 两 个 函数 来 自 标准 MO 画 数 
库 。 我 们 没有 使 用 3.9 节 定义 的 writen 和 read1line 这 两 个 函数 ， 因 


为 没有 必要 。 相 反 ， 我 们 改 用 在 9.9 节 和 9.10 节 定义 的 sctp_sendmsg 
Allsctp_recvmsgEH&y ° 


本 例子 使 用 一 到 多 式 接 口 的 服务 器 。 如 此 抉择 是 有 原因 的 。 第 5 章 
中 的 例子 可 以 略 作 修改 就 运行 在 SCTP 之 上 : 把 socket 函 数 调用 改 为 
指定 IPPROTO_SCTP 而 不 是 IPPROTO_TCP 作 为 第 三 个 参数 。 然 而 如 
此 简单 的 改动 难以 发 挥 SCTP 提 供 的 除 多 宿 以 外 的 其 他 特性 。 使 用 一 到 
多 式 接口 允许 使 用 SCTP 的 所 有 特性 。 


10.2 ”SCTP 一 到 多 式 流 分 回 射 服务 器 程 
FF: maine 


我 们 的 SCTP 客 户 和 服务 右 程 序 依循 图 9-2 所 示 的 函数 调用 


图 10-2 给 出 了 一 个 达 代 服务 器 程序 。 


1 


include "unp.h" 
int 
nainl!inz arge, char **argv, 
iat sock fd, mag flags; 


char resłsdtuf [BUFFSIZE) ; 

Struct sockaddr in servaddr, cliaddr; 
strat sctp snircvinfo sri; 

SETCE set p rvent subscr ibe eunts; 
int stream -ncrement-1: 

eccklen t len; 

size > rd sz; 


if (argc == 2} 

stream -ncremwent = stoi largv(1]!; 
scex td - Sockst(AF INET, SOCK SEZPACKET, IPPRCOTO SCTP); 
bzero(&servacdr, sizeof!serzva3dr!); 
servadd-.sin family = AP TNET; 
servadd-.sin aZdr s addr = htonl[IMADDR ANY) ; 
sarvaddrz.sin port = atons{SERV PORT); 


Bind:sock fd, (SA +) &servaddr, sizcot:3crvaddr;); 


bzero(&ewvnts, sizeof(evwn-s!); 
eunts.sctp dat 4 io event = 1i 
Satsockopriscck fd, IPPROTO SCTP, SCT? ZVENTS, uevnts, sizeort(evnts) ); 


Listen (sock_td, LISTANQ); 


fees). a 4 POE 
ler = s:zecfí(s-mct sockaddr_int ; 
rā e2 = Sctp recvmez(sock fd, readbuf, eizeofireadbut), 


(SA *) &cliaddr, &ler. &sri, &émsqg_flags) ; 
iz (stream_increment' 
sri wiufn sb reames: 
i= (sri.sinto strsam >= 
sctp get no strus(soc« £d. (SA *)&cliadd-, len!) 
sri.sinfao stream = 2; 
) 
Sctp sandmsg(sock td. readbut, rd ez, 
(SA *)&clia3dr, len, 
sri.sinfo pp:d, 
sri.sinfo flacs, sri.sinfo stream, Ô, 0): 


流程 。 


sctp/scteservül.c 


sctp/sctpservól.c 


图 10-2 ”SCTP 流 分 回 射 服务 器 程序 


设置 流 号 增长 选项 


13-14 默认 情况 下 服务 器 响应 所 用 的 流 号 是 在 其 上 接收 消息 的 
流 号 加 1。 如果 通 过 命令 行 传递 一 个 整数 参数 ， 那 么 服务 器 将 把 该 参数 
解释 成 stream_increment 的 值 。 也 就 是 说 该 参数 决定 是 否 增长 外 
来 消息 的 流 号 。 我 们 将 在 10.5 节 讨论 头 端 阻塞 时 使 用 这 个 选项 。 


创建 一 个 SCTP 套 接 字 
15 创建 一 个 SCTP 一 到 多 式 套 接 字 。 
捆绑 一 个 地 址 


16-20 在 待 捆绑 到 该 套 接 字 的 网 际 网 套 接 字 地 址 结构 中 填 入 通 
配 地 址 (INADDR ANY) 和 服务 器 的 众所周知 端口 (SERV. PORT) » 
捆绑 通 配 地 址 是 在 告知 系统 : 本 SCTP 端 点 将 在 建立 的 任何 关联 中 使 用 
所 有 可 用 的 本 地 地 址 。 对 于 多 宿主 机 而 言 ， 这 种 捆绑 意味 着 一 个 远程 
端点 能 够 与 这 个 本 地 主机 任何 一 个 可 路 由 地 址 建立 关联 并 发 送 分 组 。 
我 们 对 于 SCTP 端 口号 的 选择 基于 图 2-10。5.2 节 的 例子 中 就 端口 号 的 考 
虑 同样 适用 于 本 例子 。 


预订 感 兴趣 的 通知 

21-23 服务 器 修改 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 它 仅仅 
预订 sctp_data_io_event， 从 而 允许 服务 器 查看 
sctp_sndrcvinfo 结 构 。 服 务 器 可 从 该 结构 确定 消息 到 达 所 在 的 流 
B. 


开启 外 来 关联 


24 服务 右 以 Listen 调 用 开局 外 来 关联 。 随 后 控制 进入 主 处 理 
循环 。 


288™ 
289 


等 待 消息 


26-28 Aker Male PBF HA, REE 
S REOR HEM — ANFEN iY, E. o 


若 需 要 则 增长 流 号 


29-34 ” 当 一 个 消 恩 到 达 时 ， 服 务 絮 检查 stream_increment 
标志 变量 以 确定 是 否 需 要 增长 流 号 。 如 果 设 置 了 该 标志 (没有 通过 命 
令 行 传递 参数 或 所 传递 命令 行 参数 不 为 0”， 服 务 器 就 把 消息 的 流 号 增 
1° 如 果 流 号 增长 到 大 于 等 于 最 大 流 号 〈 通 过 调用 内 部 函数 
sctp_get_no_strms 获 取 ) ， 服 务 器 就 把 流 号 重 置 为 0。 
sctp_get_no_strms 函 数 没有 给 出 ， 它 使 用 7.10 和 讨论 的 
SCTP_STATUS 套 接 字 选项 找 出 商定 的 流 数 目 。 


发 送 回 响应 


35-38 服务 器 使 用 来 自 sri 结 构 的 浪 荷 协议 ID、 标 志 以 及 可 能 
BNA A 3S [ETE AR 


DX. AMBAS us Se BAD, AILS IE T TH Ee BYE 
ARISES BH A ATA E ° AER ae KRM sctp_sndrcvinfo 
RA 中 的 信息 和 cliaddr 中 返回 的 地 址 定位 对 端的 关联 地 址 并 返 送 回 射 
1H AR © 


AFET — BIS 17 BAF ESSI SANK RSS i EB LE ° 


10.3 SCTP 一 到 多 式 流 分 回 射 客 户 程序 : 


main žk 


110-3 R HSCTP P EF Hmain KR e 


setpSetpclientO1.c 


+ éincluie " ur:p. h" 


2 int 

3 maian!inz argc, char **araw; 

4 

5 int sack fi; 

6 struct seckacdr in sarvaddr; 

7 struci sc-p cvcnt Suczscribc cvnts; 

8 iat ecko to aàll-5; 

3 if (argc - 2) 

10 crr quit("M-5sinq host zracumcat usc '$2 host [cecho] '\n", arav[G]); 
43 if (arge > 2) { 

12 print=("Ecnoing messases to all streamo\n"}); 

13 echo to all zl; 

14 } 

15 Scck Ed = Socket(AF INST. SOCK SECPACXET, IPPR2TO SCTP); 

16 bzero(kservacdr. sizaof/servaddr;); 

17 servaddr,.sin fami-y = AP INDT; 

1A serva: sin adde s adàr 2ehiun] [TM5DTR ANY; : 

19 s2rvaddr.sin port = atons{SERV PORT); 

30 Tael con (AF TNET, argv[1], servadi sin ad]: ): 
ae bzero(&kewntce, tizeof(evnzel): 
22 evnts.sctp data io event = 1; 

23 Sstsockop-isock fd,IFPROTO SCTP, SCIP EVENTS, &evnts, sizeof(evnts;); 
z4 if (echo -o all == 0) 

25 sctpstr clijstdin, sock fà, (SA *)&ssrvaddr, sizeof(servaddr)|; 
z6 clas 
37 sctpstr cli ecnall (st din, mock fd, (SRA*)&servaddr, 

<8 sizcot |oervaddr'! ) : 

29 Close (sack _=c! ; 

30 rstur2!0); 

43 


setp'senpeliemtól.c 


验证 参数 并 创建 一 个 套 接 字 
9-15 客户 验证 传递 AEWA: 


图 10-3 ”SCTP 流 分 回 射 客户 程序 main 函 数 


调用 者 必须 提供 消 轧 发 送 到 的 


主机 ， 并 可 以 启用 “ 回 射 到 全 部 (echo to all) ”选项 ( 见 10.5 节 ) °% 


户 然后 创 W SCIP -Z AREF ° 


设置 服务 器 地 址 


16-20 ”客户 使 用 inet_pton 函 数 把 通过 命令 行 传 递 的 服务 器 地 
址 从 表达 格式 转换 成 数值 格式 。 它 与 服务 器 的 众所周知 端口 号 组 合成 
的 地 址 束 是 请 求 的 目的 地 。 


预订 感 兴趣 的 通知 

21-23 客户 显 式 设置 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 与 服 
务 器 一 样 ， 客 户 也 不 希望 得 到 MSG_NOTIFICATION 事 件 ， 因 此 要 禁 
止 这 些 事件 通知 ， 而 仅仅 开启 sctp_sndrcvinfo 结 构 的 接收 。 
Wal FA [B] Ah ER BY 

24-28 如果 没有 设置 echo_to_all 标 志 ， 客 户 就 调用 将 在 10.4 


廊 讨 论 的 sctpstr_cili 了 画 数 ， 否 则 调用 将 在 10.5 市 讨论 的 
sctpstr_cli_echoall Nz ° 


290 
结束 处 理 

29-31 从 回 射 处 理 函 数 返 回 之 后 ， 客 户 关 闭 其 SCTP 套 接 字 ， 从 
而 终止 使 用 该 套 接 字 的 任何 SCTP 关 联 。 客 户 随 后 从 main 函 数 返 回 值 
为 0 的 代码 ， 表 明 本 程序 的 运行 是 成 功 的 。 
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10.4 SCTP 流 分 回 射 客户 程序 : 
sctpstr_cliwx 


图 10-4 所 示 为 默认 的 SCTP 客 户 处 理 函 数 。 


selpSeip_strelic 


1 £incluce "uup.lh* 

2 void 

3 octpctr C.i1/FILE *fp, irt scex_td, struct cockaddr *zo, sockicn t tcicn) 
4 { 

5 struct  sockarddr in peeraddr; 

€ struct ctp sendrcvinfo eri; 

7 char 3endlinelMAXLINE., recvlinc|[MAXLINE| ; 

& sockler L len; 

9 int cur sz,rd sz: 

10 int req Elaqe; 

11 bzera(Gsri,sizeofisri)!; 

12 while (fzers(sendline, MAXLTM&E, fn) != NTTT] [ 

13 if ‘sendline[vU) l= '[*) { 

14 rintt (Eror, line mast be of the torm ' |streamnun)text'\n"); 
15 continue: 

LE } 

17 3ri.cinto_ctream = ztrtcl(&een2lins[1],NULL,9): 

16 cut sz = strlen(ssniline); 

1s Sctp sendmsy (so-k fd, sendline, out sz, 

20 to, tolen, 0, 0, sSrí.cinfo stream, 0, C}; 

21 len = sizcot (pecraddr} ; 

22 rd sz = Sctp re-vusg[sock fd, recvline, sizecf(recvlire), 

23 (SA *)apeeradar, &len, &sri. 4msgj flags); 
24 crinct ("srYom etr:td seq:*d (acsoc:Cxéx):", 

25 sri.sinfZo stream, ari.sinfo ssn, (u inti!sri.sirfc assoc id!; 
26 pgrin-f("&.*s", Di ez,recvline); 

27 } 


26 ] 
scipiscip streli.c 


图 10-4 sctpstr cli/ERZi: 客户 处 理 循环 
初始 化 sri 结 构 并 进入 循环 


11-12 客户 以 清 零 名 为 sri 的 sctp_sndrcvinfo 结 构 变 量 开 
始 ， 随 后 进入 一 个 循环 : 以 阻塞 式 fgets 调 用 从 由 调用 者 传 入 的 文件 
指针 fp 中 读 取 文 本 行 。main 函 数 传 入 本 函数 的 fp 是 stdin， 因 此 用 
户 输入 在 本 循环 中 一 直 被 读 入 并 处 理 ， 直 到 用 户 键入 终端 EOF 字 符 

(Control-D) 。 用 户 如 此 操作 将 结束 本 函数 ， 从 而 返回 到 调用 者 。 


验证 输入 


13-16 客户 检查 用 户 输入 符合 [#]text 格 式 。 知 不 符合 则 显示 
一 个 出 错 消 刀 ， 然 后 再 次 进入 阻塞 式 fgets 调 用 所 在 的 循环 。 


转换 流 号 
17 客户 把 用 户 在 输入 中 请 求 的 流 号 转换 成 sri 结 构 的 


sinfo_stream 字 段 。 
发 送 消息 


18-20 初始 化 目的 地 址 结构 的 长 度 以 及 用 户 数 据 的 大 小 之 后 ， 
客户 使 用 sctp_sendmsg 函 数 发 送 消 息 。 


阻塞 在 消息 等 待 上 
21-23 ”客户 阻塞 ， 等 待 来 自 服务 器 的 回 射 消息 。 
显示 返回 的 消息 并 循环 
24-26 ”客户 显示 回 射 给 它 的 返回 消息 ， 包 括 流 号 、 流 序列 号 以 


及 文本 消息 本 身 。 显 示 所 回 射 的 消息 之 后 ， 客 户 循环 回去 获取 用 户 的 
下 一 个 请 求 。 


在 一 个 FreeBSD 主 机 上 不 囊 命 令 行 参 数 启动 SCTP 回 射 服务 右 ， 然 
后 启动 其 客户 ， 客 户 的 命令 行 参 数 仅仅 指出 服务 器 主机 的 地 址 。 


freebsd4% sctpclient01 .5 


[0]Hello 在 流 0 上 发 送 一 个 消息 
From str:1 seq:0 (assoc:0xc99e0): [0]Hello 服务 器 在 流 1 上 回 射 
这 个 消息 

[4]Message two 在 流 4 上 发 送 一 个 消 
F 
From str:5 seq:0 (assoc:0xc99e0):[4]Message two 服务 器 在 流 5 上 回 射 
这 个 消息 

4]Message three 在 流 4 上 发 送 另 一 个 
消息 


From str:5 seq:1 (assoc:0xc99e0):[4]Message three ”服务 器 在 流 5 上 回 
射 这 个 消息 


AD <Ctr1+D> 是 我 们 的 


aan 


EOF +t 
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注意 ， 客 户 在 流 0 和 流 4 上 发 送 消息 与 服务 器 在 流 1 和 流 5 上 回 射 消 
息 是 同时 发 生 的 。 对 于 不 带 命令 行 参数 的 SCTP 回 射 服务 器 来 说 ， 这 是 
预期 的 行为 。 另 外 在 流 5 上 收 到 的 第 二 个 消息 对 应 的 流 序列 号 也 如 预期 


地 增 1 了 。 


10.5 “探究 头 端 阻塞 


前 述 服务 器 尽管 简单 却 提供 了 往 多 个 流 中 的 任何 一 个 流 发 送 文 本 
消息 的 一 个 方法 。SCTP 中 的 流 (stream) 不 同 于 TCP 中 的 字 节 流 ， 它 
是 关联 内 部 具有 先后 顺序 的 一 个 消息 序列 。 这 种 以 流 本 吴 而 不 是 以 流 
所 在 关联 为 单位 进行 消息 排序 的 做 法 用 于 避免 仪 使 用 单个 TCP 字 广 流 
导致 的 头 端 阻 塞 (head-of-line blocking) 现象 。 
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头 端 阻塞 发 生 在 一 个 TCP 分 节 丢 失 ， 导 致 其 后 续 分 节 不 按 序 到 达 
接收 端的 时 候 。 该 后 续 分 节 将 被 接收 端 一 直 保 持 到 第 一 个 分 节 被 发 送 
端 重 传 并 到 达 接 收 端 为 止 。 该 后 续 分 节 的 延迟 递送 确保 接收 应 用 进程 
能 够 按 顺序 得 到 由 发 送 应 用 进程 发 送 的 数据 。 这 种 为 达到 完全 有 序 效 
果 而 引入 的 延迟 非常 有 用 ， 不 过 也 有 不 利之 处 。 假 设 在 单个 TCP 连 接 
上 发 送 语义 上 独立 的 消息 ， 壁 如 说 服务 器 可 能 发 送 3 幅 不 同 的 图 像 供 
Web 浏 览 器 显示 。 为 了 营造 这 儿 幅 图 像 在 用 户 屏 幕 上 并 行 显示 的 效 
果 ， 服 务 器 先 发 送 第 一 幅 图 像 的 一 个 断 片 ， 再 发 送 第 二 幅 图 像 的 一 个 
断 片 ， 然 后 发 送 第 三 幅 图 像 的 一 个 断 片 ， 服 务 器 重复 这 个 过 程 ， 直 到 
这 3 幅 图 像 全 部 成 功 地 发 送 到 浏览 器 为 止 。 要 是 承载 第 一 幅 图 像 某 个 断 
片 内 容 的 TCP 分 节 丢 失 了 ， 将 会 发 生 什 么 呢 ? 客户 将 保持 已 不 按 序 到 
达 的 所 有 数据 ， 直 到 丢失 的 分 节 被 重 传 并 成 功 到 达 为 止 。 这 样 不 仅 延 
绥 了 第 一 幅 图 像 数据 的 递送 ， 也 延缓 了 第 二 幅 和 第 三 幅 图 像 数据 的 递 
送 。 图 10-5 展 示 了 这 个 问题 。 


服务 器 客户 


递送 
保持 的 所 有 分 节 
gei 


图 10-5 ”在 单个 TCP 连 接 上 发 送 3 幅 图 像 


尽管 不 属于 HTTP 的 工作 原理 ， 诸 如 SCP [Spero 1996] 和 SMUX 
| Gettys and Nielsen 1998] 等 扩展 手段 已 被 提议 ， 它 们 能 够 在 TCP 之 
上 提供 类 似 的 并 行 功能 。 提 议 这 些 复 用 协议 由 在 避免 由 多 个 不 共享 状 
态 的 并 行 TCP 连 接 造 成 的 有 害 行 为 [Touch 1997] 。 尽 管 为 每 幅 图 像 
创建 一 个 TCP 连 接 HTTP 客户 通常 这 么 做 ) 避免 了 头 端 阻塞 问题 ， 每 
个 连接 却 不 得 不 独立 发 现 RTT 和 可 用 带宽 ;一 个 连接 上 的 分 节 丢 失 
(这 是 该 连接 所 在 路 径 上 存在 拥塞 的 一 个 信号 ) 无 法 必然 导致 其 他 连 
接 减 缓 传输 速率 。 这 将 导致 拥塞 网 络 上 较 低 的 整体 利用 率 。 


应 用 进程 并 不 希望 发 生 头 端 阻塞 。 理 想 情 况 下 ， 只 有 第 一 幅 图 像 
的 后 续 断 片 会 被 延 级 ， 而 按 顺 序 到 达 的 第 二 幅 和 第 三 幅 图 像 的 各 个 断 
刻 将 被 立即 递送 给 用 户 。 


SCTP 的 多 流 特 性 能 够 尽 可 能 地 减少 头 端 阻塞 。 图 10-6 展 示 了 同样 
3 幅 图 像 的 传送 过 程 。 这 回 服务 此 使 用 多 个 流 ， 使 得 头 端 阻塞 仅仅 发 生 
于 期 鹿 的 地 方 ， 这 样 第 二 幅 和 第 三 幅 图 像 的 递送 不 再 受 第 一 幅 图 像 的 
影响， 而 第 一 幅 图 像 部 分 接收 的 数据 将 保持 到 可 以 顺序 递送 为 止 。 


服务 器 客户 


— — tn 
CL) 流 ] 9 Ee 
G2 
cba 流 2 jh x 
— . Hifíí3 
C1) 流 3 weak 
a ei | 
C1) ( BE) 六 7 aa 排队 
PRT RAY me 
Ade RES 


图 10-6 ”在 3 个 SCTP 流 上 发 送 3 幅 图 像 


图 10-7 给 出 了 SCTP 回 射 客 户 程 序 的 sctpstr_ a yaa 
数 ， 我 们 用 它 展示 SCTP 如 何 把 头 端 阻塞 减少 到 最 小 。 函数 类 似 早 
^tHyJsctpstr clilNZX, zÉ5 ET MERE NMEA 
文本 消息 的 流 号 。 本 函数 将 把 用 户 输 入 的 文本 消息 发 送 到 多 达 
pena ce a T 。 发送 完 消 上 息 后 ， 客 户 等 待 来 目 服 

器 的 所 有 响应 的 到 过 。 。 在 运行 服务 器 程序 时 ， 我 们 传递 一 个 额外 的 
命 命令 行 参 数 ， ETHER AS di E PUIN 息 的 同一 个 流 上 给 出 响应 。 这 么 一 
来 用 户 就 能 更 好 地 追踪 服务 器 发 送 的 响应 以 及 它们 到 达 客 户 的 顺序 。 


reipiscip_strcliecia.c 


1 include "ur:p. h^ 


2 fSefine SCTP MOXLINE 800 


3 void 

4 sctpstr cli echoall [FILE *fp. int sock_fd, struct sockaddr “to, 
5 socklen 1 tollent 

6 

7 etracz £ockacdr in peeraddr; 

8 strat sctp snzrcvinfo sri: 

E] Car werdlise[SCT? MAXLINE], revline[SCT7P MAXLTWE]; 

10 sccxlen t len; 

1i int rd cz, =, otros; 

12 int msg flags; 

13 bzero(sendlire, z-zecf(sendlire);; 

14 bzero(&ksri, &:zecf(sri!); 

15 waile {igets(sendline, SCTP MAXL-NE 9, ip) != NULL! { 

16 sLrsz = stcrlen(sendline); 

17 i? (sendline[szrsz-1] == '\n') Í 

18 gerdline[etrez-1) = ‘\0'; 

19 atraz 

20 } 

ai for (i - 0;í1 < SERV MAX SCT? STRN; i++) { 

Er oncrintt (cendline | otroz, ciszcot(serdlinc}) - otroz2, 
23 *.mag.Sd", i): 

24 $ctp senümsg(sock fd, sendline, sizeof (sendline). 
25 to, tolen, 0, 0, í, 0, Ui; 

26 ) 

27 for (i = 0; i < SERV MAX SCTP STRM; i++) : 

28 ler = s-zeof (peeradar) ; 

#9 rd ez = sctp recvneg {sock fd, recvl-re, sizeof(recvline), 
30 (SA *)apeeraddr, &len, sri, &«sa flags); 
21 p-intf(**roam steered seg $0. (axssoctoxz$x) *", 

a2 sri.sinfo stream, sri.sinfo ssn, 

33 {u_int)cri.sinto_asece_id)+ 

34 p-intfí(*&.*sin", rd sz. recvline); 

35 } 

36 } 

37 


图 10-7 sctpstr cli echoallEZK& 
初始 化 数据 结构 并 等 待 输入 
13-15 客户 照样 初始 化 用 于 建立 各 个 流 的 sri 结 构 ， 客 户 的 数 
据 发 送 和 接收 将 通过 这 些 流 进 行 。 客 户 还 请 零用 于 收集 用 户 输入 的 数 
据 缓 冲 区 。 客 户 随后 同样 进入 阻塞 于 用 户 输入 的 主 循环 。 
预 处 理 消息 


zT 客户 设置 消息 大 小 之 后 删除 缓冲 区 末尾 的 换行 符 (如 果 
9 话 ) e 


发 送 消息 到 每 个 流 


21-26 客户 使 用 sctp_sendmsg 函 数 发 送 消息 ， 发 送 的 是 长 度 
为 SCTP_MAXLINE 字 节 的 整个 缓冲 区 。 在 发 送 消 息 之 前 ， 客 户 添 加 上 
字符 串 “.msg.” 和 流 号 ， 这 样 我 们 就 能 观察 各 个 响应 消息 的 到 达 顺 序 ， 
并 与 客户 发 送 请 求 消息 的 顺序 相 比 较 。 注 意 ， 客 户 只 是 把 消息 发 送 到 
固定 数目 的 流 中 ， 而 不 管 其 中 有 多 少 流 已 经 真正 建立 。 要 是 对 端 向 下 
商定 流 的 数 上 日， 那么 客户 的 若干 个 消息 发 送 可 能 失败 。 


要 是 发 送 或 接收 窗口 过 小 ， 本 程序 就 有 失败 的 潜在 可 能 。 要 是 对 
端的 接收 窗口 过 小 ， 客 户 有 可 能 被 阻塞 。 有 既然 客户 在 完成 消 乱 发 送 之 
前 不 会 读 取 任何 信息 ， 服 务 器 在 等 得 客户 完成 读 取 已 经 送出 的 啊 应 期 
间 也 可 能 潜在 地 阻塞 。 这 种 情形 的 后 末 是 两 个 端点 发 生死 锁 。 本 程序 
0 00 0. 
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读 回回 射 的 消息 并 显示 


27-35 客户 读 入 来 目 服 务 右 的 所 有 了 啊 应 消 轧 ， 并 照样 显示 它 
和 
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10.5.1 ”运行 代码 


我 们 在 两 个 不 同 的 FreeBSD 主 机 上 执行 客户 程序 和 服务 句 程 序 。 
这 两 个 主机 由 一 个 可 配置 的 路 由 虽 分 割 开 ， 如 图 10-8 所 示 。 路 由 器 能 
够 配置 成 插入 延迟 和 丢失 。 我 们 百 先 查看 在 路 由 器 不 插入 丢失 前 提 下 
程序 的 执行 情况 。 


" 
服 秀 器 


应 用 进程 


Ae rh 
er) d 


以 用 进程 


SCTP/IP 拷 的 
FrecHSD-svr 


SCTP/PA if; 
FreeBSD-lap 


~ 


4 
i res 


LANI 


图 10-8 SCTP 客 户 /服务 器 实验 环境 


我 们 以 一 个 额外 的 命令 行 参数 “0? 启 动 服务 器 ， 迫 使 服务 器 不 增长 
应 答 所 用 的 流 号 。 

我 们 接着 局 动 客户 ， 通 过 命令 行 传 入 回 射 服务 嘎 主 机 的 地 址 和 一 
个 额外 的 参数 ， 使 得 客户 把 任何 消息 发 送 到 每 个 流 。 


freebsd4% sctpclientO1 .1 echo 
Echoing messages to all streams 
Hello 

From str: 
From str: 
From str: 


seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 


(assoc:0xc99e0): 
(assoc:0xc996e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 


From str: 
From str: 


str: 
str: 
str: 
str: 
str: 


OANDUTARWNE Oo 
[(oONoNoMoONoOMOMOMOMoEO! 
OONDOOARWNHE O 


freebsd496 


在 没有 丢失 的 前 担 下 ， 客 户 看 到 啊 应 消息 按照 发 送 它们 的 顺序 到 
达 。 我 们 随后 把 路 由 器 参数 改 为 两 个 方向 的 分 组 丢失 率 均 为 10%， 并 
重新 局 动 客户 。 


freebsd4% sctpclientO1 .1 echo 

Echoing messages to all streams 

Hello 

From str:0 seq:0 (assoc:0xc99e0):Hello.msg.0 
From str:2 seq:0 (assoc:0xc99e0):Hello.msg.2 


From str:3 seq:0 (assoc:0xc99e0):Hello.msg.3 
From str:5 seq:0 (assoc:0xc99e0):Hello.msg.5 
From str:1 seq:0 (assoc:0xc99e0):Hello.msg.1 
From str:8 seq:0 (assoc:0xc99e0):Hello.msg.8 
From str:4 seq:0 (assoc:0xc99e0) :Hello.msg.4 
From str:7 seq:0 (assoc:0xc99e0):Hello.msg.7 
From str:9 seq:0 (assoc:0xc99e0):Hello.msg.9 
From str:6 seq:0 (assoc:0xc99e0):Hello.msg.6 
^D 

freebsd4% 
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LAP Ee Mitt APM, Ri BEWE AANA 
思 因 重新 排序 所 需 而 被 适当 地 保持 着 。 我 们 还 把 客户 程序 改 为 增添 一 
个 请 恩 序 号 作为 消 思 后缀， 以 便 标 识 同一 个 流 内 的 两 个 消 妃 。 图 10-9 
展示 了 改动 部 分 的 代码 。 


Sectes te. sircliechoz E 


21 for (i 20 ; i e SERV MAX SCTP STRM; i++) : 

42 snprintf(sendline + strsz, sizeot(serdline) - strsz, 
2 am3ag.3G 1'. i) 

24 Sctp sendmey(sock £d, sendline, sizeof (sendline). 
25 to, tolen, 0, 29, 1. 0, 0); 

z6 snprintfí(sendline + straz, sizeof (serdline) atzsz, 
2" *.mag.%d 2', i); 

28 Sctp sendmsq(seck fd, sandline, sizeof(sendline). 
29 to, tolen. 0, 2, 1, 0, 0)? 

30 j 

rk for (i = 0; Í < SERV MAX SCTP STRM * 2; i-+) | 

22 ler = ciscot (peeraddr) : 


seipscip sircliochkol.c 


图 10-9 sctpstr cli/NZX ju 
添加 额外 的 消息 序号 并 发 送 


22~25 ”客户 添加 一 个 额外 的 消 恩 序号 1 以 帮助 追踪 得 发 送 的 消 
息 ， 然 后 使 用 sctp_sendmsg 画 数 把 消息 发 送出 去 。 


修改 消息 序号 再 次 发 送 


26-29 ”客户 把 消息 序号 从 1 改 为 2， 然 后 把 更 改 后 的 消息 发 送 到 
同一 个 流 中 。 


读 回 消息 并 显示 


31 这 儿 的 代码 只 需 略 加 改动 : TUE POR BIT ARS 
如 的 消息 数目 翻 倍 。 


10.5.2 ”运行 改动 过 的 代码 


我 们 像 先 前 那样 执行 服务 絮 程 序 和 改动 过 的 客户 程序 ， 得 到 的 来 
目 客 户 的 输出 如 下 。 


freebsd4% sctpclient01 .1 echo 
Echoing messages to all streams 
Hello 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
From str: 
str: 
str: 
str: 
str: 
str: 


seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 


(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 
(assoc:0xc99e0): 


BOOANNDAMDNAFWWOONUTKRER OO 
BROOANNDAADNAFWWOONTKRR OO 
NNNNNNRRFPNNNRPRPRPRRPRRBEDN PB 


0 
工 
0 
0 
0 
0 
0 
0 
0 
工 
工 
工 
0 
0 
工 
工 
工 
工 
工 
工 


freebsd4% 
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从 中 可 以 看 出 ， 消 妃 存 在 丢失 现象 ， 不 过 只 有 同一 个 流 内 的 请 恩 
才 因 此 延 级 ， 其 他 流 中 的 消 恩 不 受 影 响 。SCTP 流 可 以 说 是 一 个 既 能 避 
免 头 端 阻塞 义 能 在 相关 的 消息 之 间 保 持 顺 序 的 有 效 机 制 。 


10.6 ”控制 流 的 数目 


我 们 已 经 查看 了 如 何 使 用 SCTP 流 ， 另 一 个 问题 是 关联 初始 化 阶段 
如 何 控制 一 个 端点 请 求 的 流 数 目 。 我 们 早先 的 例子 使 用 的 是 外 出 流 数 
目的 系统 默认 值 。 对 于 FreeBSD 上 SCTP 的 KAME 实 现 而 言 ， 这 个 默认 
值 是 10。 如 果 客 户 和 服务 器 想 要 使 用 多 于 10 个 的 流 情况 义 如 何 呢 ? 在 
10-10 中 ， 我 们 把 服务 絮 程 序 改 为 允许 在 关联 启动 阶段 增长 端点 请 求 
的 流 数 上 日。 注意， 这 个 变动 必须 针对 尚未 建立 关联 的 套 接 字 进 行 。 


Sctp/sctoserüz.c 
14 if (arge -- 2) 


15 strean inc-ement = atci(argv[1]'; 

16 Sock td = docket {AFr_INET, SOCK_SEDPACKET, IPPRCTO_SCTP) ; 

17 bzero(&l:ritn,sizeof(initm);; 

16 initm.s:rit num os-reams = SERV MORE STRMS SCTE; 

19 Setcockopt(eoc« fd, LPPROTO SUTE, SUCIP LINITMEG, Sinitm, sizeof [initr])j; 


scip/sctpservüz.c 


110-10 ”服务 器 程序 请 求 更 多 流 的 改动 部 分 


初始 设置 

14-16 ARS as PPE AA SITS BOX Na ETT FT ES 
字 。 
修改 流 数 目 请 求 


17-19 ”这 几 行 含有 增加 到 服务 器 程序 中 的 新 代码 。 服 务 器 首先 
清 零 sctp_initmsg 结 构 ， 以 确保 setsockopt 调 用 不 会 无 意 中 改动 
任何 其 他 值 。 服 务 器 接着 把 sinit_max_ostreams 字 段 设置 成 期 望 
请 求 的 流 数 目 ， 然 后 以 初始 消息 参数 设置 套 接 字 选项 。 
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设置 套 接 字 选 项 的 另 一 种 方法 是 ， 使 用 sendmsg 画 数 并 提供 辅助 
数据 以 请 求 不 同 于 默认 设置 的 流 参数 。 这 种 类 型 的 辅助 数据 仅仅 适用 
于 一 到 多 式 套 接 字 。 


10.7 ”控制 终结 


在 早先 的 例子 中 ， 我 们 依赖 于 客 尸 关闭 套 接 字 来 终止 关联 。 然 而 
客户 可 能 并 不 总 是 愿意 关闭 套 接 字 。 服 务 右 也 可 能 不 愿意 在 发 送 了 应 
答 消 恩 之 后 继续 保持 关联 开 放 。 这 种 情况 下 ， 我 们 需要 查看 终止 一 个 
关联 的 男 外 两 个 机 制 。 对 于 一 到 多 式 接 口 ， 这 两 个 可 能 的 方法 都 可 
用 : 其 中 一 个 十 雅致 的 ， 男 一 个 则 是 破坏 性 的 。 


如 果 服 务 器 希望 在 发 送 完 一 个 应 答 消 息 后 终止 一 个 关联 ， 那 么 可 
以 在 与 该 消息 对 应 的 sctp_sndrcvinfo 结 构 的 sinfo_f1lags 字 段 
中 设置 MSG_EOF 标 志 。 该 标志 人 迫使 所 发 送 消息 被 客户 确认 之 后 ， 相 应 
关联 也 被 终止 。 另 一 个 方法 是 把 MSG_ABORT 标 志 应 用 于 
sinfo_flags 字 段 。 该 标志 将 以 ABORT 块 迫使 立即 终止 关联 。SCTP 
的 ABORT 抉 类 似 TCP 的 RST 分 厂 ， 能 够 无 延迟 地 中 止 任 何 关联 ， 尚 未 
发 送 的 任何 数据 都 被 丢弃 。 然 而 以 ABORT 块 关闭 一 个 SCTP 会 话 并 没 
有 诸如 防止 TCP 的 TIME_WAIT 状 态 之 类 的 不 恨 影 响 ，ABORT 块 导致 
的 是 “优雅 的 ?中止 性 关闭 。 图 10-11 给 出 的 是 回 射 服务 器 程序 的 改动 部 
分 ， 用 于 在 送出 响应 消息 的 同时 激活 优雅 的 关联 终止 。 图 10-12 给 出 的 
aia a lg cL 用 于 在 关闭 套 接 字 之 前 发 送 一 个 ABORT 


sctp/scteservü3.c 


25 for (33) { 
26 ler mr s-zecf(s-ruct sockaddr in); 
rd ez = Sctp_recyvmeg(sock_fd, readbuf, elizeotireadbut), 
PI (SA *1&cliaddr, &ler. &sri, &msg flazs); 
29 a= (wt rem KC) i 
30 gri.sinfo stream++: 
i i= (cri.cinto_ctrsam >= 
32 Sctp get no stzms(scck Ed. (SA *)&z-iaddr, len!) 
33 sri.sinfc stream = 3 
34 ) 
35 Sctp ocnamaq(oock td, rcadbuf, rd oz, 
36 ‘SA *'&clisdzr, len, 
31 sri.sint5 ppid, 
348 'ari.sínfo flags | MSG BOF], sri.sinfo stream, 0, 2); 


scip/sctpservü3.c 


图 10-11 服务 器 程序 应 答 同时 终止 关联 的 改动 部 分 


sctpseptctient 02. c 


iE decho to ali == 0) 


25 

i6 sctpstr clijstdin, sock fd, (SA *)&servacdr, sizeot(servaddr)!; 

E? else 

28 sctpstr -li echnallistdin, sock fd, (SA *!|&servadd-, 

29 sizect |servaddr! } : 

20 otrcopy|bycmoc, "aoo2dzyc"!; 

31 Scta sendnsgí(sock fd, byemsg, strlen thyensg!, 

32 SA ")&serva$Sdár, sizeofiservaddr), J, MSG ABIRT, 0, 0, OI; 
33 Clo (oock Ci 


sotpselpclient0z.c 


图 10-12 客户 程序 预先 中 止 关联 的 改动 部 分 
发 送 回 响应 ， 同 时 终止 关联 


38 ”本 行 的 改动 仅仅 是 给 sctp_sendmsg 画 数 的 标志 参数 或 上 
MSG_EOF 标 志 。 该 标志 促成 服务 絮 在 应 答 消 恩 被 客户 成 功 确 认 之 后 关 
闭关 联 。 
关闭 套 接 字 前 中 止 关 联 


30-32 客户 准备 一 个 消息 作为 关联 中 止 的 用 户 错误 起 因 ， 然 后 
以 MSG_ABORT 标 志 调 用 sctp_sendmsg 函 数 。 该 标志 导致 发 送 一 个 
ABORT 块 ， 从 而 立即 终止 当前 天 联 。 这 个 ABORT 块 包含 用 户 发 起 错 
误 起 因 代 码 ， 其 上 层 原 因 字 上 段 中 的 消 忆 为 “goodbye”。 


关闭 套 接 字 描述 符 


33 ”即使 关联 已 经 中 止 ， 我 们 仍 得 天 闭 套 接 字 搬 述 符 以 释放 与 之 
关联 的 系统 资源 。 


10.8 ”小 结 


我 们 查看 了 约 为 150 行 代码 的 简单 SCTP 客 户 和 服务 右 程 序 。 这 两 

个 程序 都 使 用 一 到 多 式 SCTP 接 口 。 服 务 妖 程序 按照 类 代 式样 构造 ， 这 
也 是 使 用 一 到 多 式 接 口 时 的 常用 式样 。 服 务 器 接收 每 个 请 求 消息 之 
后 ， 应 答 消 恩 或 者 发 送 到 请 求 消 恩 到 来 的 流 上 ， 或 者 发 送 到 编号 稍 高 
的 流 上 。 我 们 接着 查看 了 头 端 阻塞 问题 。 通 过 修改 客户 程序 强调 本 问 
题 ， 我 们 表明 SCTP 访 可 用 于 避免 这 个 问题 。 我 们 使 用 众多 可 用 于 控制 
SCTP 行 为 的 套 接 字 选 项 之 一 查看 了 如 何 操纵 流 的 数目 。 最 后 ， 我 们 再 
次 修改 服务 器 和 客户 程序 ， 使 得 它们 或 能 中 止 一 个 关联 (并 包含 一 个 
用 户 上 层 原因 代码 ) ， 或 能 〈 对 于 我 们 的 服务 器 情形 ) 在 发 送 一 个 消 
息 之 后 优雅 地 终止 关联 。 
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我 们 将 在 第 23 章 深入 探讨 SCTP © 


习题 


10.1 在 图 10-4 所 示 的 客户 程序 中 ， 如 果 SCTP 返 回 错误 ， 将 会 发 
生 什 么 ? 如 何 改 正 程序 以 解决 这 个 问题 呢 ? 


10.2 ”如 果 我 们 的 服务 器 在 给 出 响应 之 前 退出 ， 将 会 发 生 什么 ? 
有 什么 办 法 能 够 让 客户 知晓 这 种 情况 呢 ? 


10.3 ”在 图 10-7 的 第 22 行 ， 我们 把 out_sz 设 置 成 800 字 节 。 你 认 
为 我 们 这 么 做 的 理由 是 什么 ?有 更 好 的 办 法 找 出 较为 理想 的 大 小 值 来 


设置 该 变量 吗 ? 


10.4 Nagle 算 法 (7.1075) 对 于 图 10-7 所 示 的 客户 程序 有 什么 影 
hal? 禁止 Nagle 算 法 有 助 于 本 程序 吗 ? 把 客户 和 服务 器 程序 改 为 都 禁止 
Nagle 算 法 ， 再 构造 并 运行 它们 。 


10.5 “在 10.6 节 我 们 指出 ， 应 用 进程 应 该 在 建立 关联 之 前 修改 流 的 
数目 。 如 果 应 用 进程 在 建立 关联 之 后 修改 流 的 数目 ， 将 会 发生 什么 ? 


10.6 ”在 讨论 修改 流 的 数目 时 我 们 指出 ， 一 到 多 式 套 接 字 是 唯一 
可 使 用 辅助 数据 以 请 求 更 多 流 的 式样 。 其 理由 是 什么 ? (提示 : 辅助 
数据 必须 随 消 忌 一 道 发 送 。) 


10.7 ”为 什么 服务 万 可 以 不 追踪 目 己 打 开 的 关联 而 离开 呢 ? ANE 
踩 关 联 存在 危险 吗 ? 


10.8 在 10.7 节 ， 我 们 把 服务 硕 程 序 改 为 在 应 答 每 个 消息 后 终止 相 
应 的 关联 。 这 么 做 会 导致 任何 问题 吗 ? 这 是 一 个 好 的 设计 决策 吗 ? 
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第 11 章 ”名 字 与 地 址 转换 


11.1 概述 


到 目前 为 止 ， 本 书 中 所 有 例子 都 用 数值 地 址 来 表示 主机 (如 
206.6.226.33) ， 用 数值 端口 号 来 标识 服务 器 〈 例 如 端口 13 代 表 标 准 的 
daytime 服 务 器 ， 端 口 9877 代 表 我 们 的 回身 服务器) 。 然 而 出 于 许多 理 
由 ， 我 们 应 该 使 用 名 字 而 不 是 数值 : 名 字 比 较 容 易 记 住 ， 数 值 地 址 可 
以 变动 而 名 字 保 持 不 变 ;， 随 着 往 IPv6 上 转移 ， 数 值 地 址 变 得 相当 长 ， 
手工 键入 数值 地 址 更 易 出 错 。 本 章 讲述 在 名 字 和 数值 地 址 间 进 行 转换 
的 函数 : gethostbyname 和 gethostbyaddr 在 主机 名 字 与 IPv4 地 址 
之 间 进 行 转换 ，getservbyname 和 getservbyport 在 服务 名 字 和 
端口 号 之 间 进 行 转换 。 本 章 还 讲述 两 个 协议 无 关 的 转换 函数 : 
getaddrinfofligetnameinfo, 分别 用 于 主机 名 字 和 IP 地 址 之 间 以 
及 服务 名 字 和 端口 号 之 间 的 转换 。 


11.2 域名 系统 


域名 系统 (Domain Name System, DNS) 主要 用 于 主机 名 字 与 IP 
地 址 之 间 的 映射 。 主 机 名 既 可 以 是 一 个 简单 名 字 (simple name) , fil 
如 Solaris 或 bsdi， 也 可 以 是 一 个 全 限定 域名 (Fully Qualified 
Domain Name, FQDN) ， 例 如 solaris,.unpbook ,com。 


严格 说 来 ，FEQDN 也 称 为 绝对 名 字 (absolutename) ， 而 且 必 须 以 
一 个 点 号 结尾 ， 不 过 用 户 们 往往 省 略 结尾 的 点 号 。 这 个 点 号 告知 DNS 
字 是 全 限定 的 ， 从 而 不 必 搜 索 解析 器 目 己 维护 的 可 能 域名 
| o 
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我 们 在 本 和 仅仅 讨论 网 络 编程 所 需 的 DNS 基础 知识 。 对 于 更 多 细 
节 感 兴趣 的 读者 可 参阅 TCPv1 的 第 14 章 和 [Albitz and Liu 2001 | 
IPv6 所 要 求 的 附加 内 容 出 自 RFC 1886 | Thomson and Huitema 1995| 和 
RFC 3152 [Bush 2001 | 


11.2.1 资 源 记 录 
DNS 中 的 条 目 称 为 资源 记录 (resource record, RR) 。 我 们 感 兴趣 
的 RR 类 型 只 有 若干 个 。 


A ”A 记录 把 一 个 主机 名 映射 成 一 个 32 位 的 IPv4 地 址 。 举 例 来 说 ， 
以 下 是 unpbook.com 域 中 关于 主机 freebsd 的 4 个 DNS 记 录 ， 其 中 第 
/= 


12.106.32.254 
3ffe:b80:8d:1:a00:20ff : fea7:686b 


5 freebsd.unpbook.com. 
10 mailhost.unpbook.com. 


AAAA HWA” (quad A) 记录 的 AAAA 记 录 把 一 个 主机 名 了 映 
射 成 一 个 128 位 的 IPv6 地 址 。 选 择 “ 四 A” 这 个 称呼 是 由 于 128 位 地 址 是 32 


位 地 址 的 四 倍 。 


PTR 称 为 “指针 记录 ” (pointer record) 的 PTR 记 好 把 IP 地 址 映射 
成 主机 名 。 对 于 IPv4 地 址 ，32 位 地 址 的 4 个 字 节 先 反 转 顺 序 ， 每 个 字 节 
都 转换 成 各 自 的 十 进 制 ASCII 值 (0~255) 后 ， 再 添上 in- 
addr .arpa， 结 果 字 符 串 用 于 PTR 查 询 。 

对 于 IPv6 地 址 ， 128 位 地 址 中 的 32 个 四 位 组 先 反 转 | 顺序 ， 每 个 四 位 组 都 
被 转换 成 相应 的 十 六 进 制 ASCII 值 (0~9, af) 后 ， 再 添上 
ip6.arpa ° 

举例 来 说 上 例 中 主机 freebsd 的 两 个 PTR 记 录 分 别 是 
254.32.106.12.in- addr.arpa 和 
b..7.a.e.f.f.f.0.2.0.0.a.0.1.0.0.0.d.8.f.1.0.8. 
b.0.e.f.f.3.ip6.arpa ° 


早期 标准 指定 在 ip6. int 域 中 反 回 查找 IPv6 地 址 。IPv6 的 反 回 查 
找 域 现 已 改 为 ip6 ,arpa， 以 与 IPv4 保 持 一 致 。 这 两 个 域 之 间 存 在 一 
个 过 渡 期 ， 期 间 两 者 都 可 以 使 用 。 


MX MX 记录 把 一 个 主机 指定 作为 给 定 主 机 的 “邮件 交换 器 ”(mail 
exchanger) 。 上 例 中 主机 freebsd 有 2 个 MX 记录 : 第 一 个 的 优先 级 值 
为 5， 第 二 个 的 优先 级 值 为 10。 当 存在 多 个 MX 记录 时 ， 它 们 按照 优先 
级 | IE 使 用 ， 值 越 小 优先 级 越 高 。 


本 书 不 用 MX 记录 ， 我 们 提 及 这 种 类 型 RR 是 因为 它们 在 现实 世界 
中 应 用 相当 广泛 。 
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CNAME ” CNAME 代表 “canonical nme” (规范 名 字 ) ， 它 的 常见 
用 法 是 为 常用 的 服务 (例如 ftp 和 www) 指派 CNAME 记 录 。 如 果 人 们 
使 用 这 些 服 务 名 而 不 是 真实 的 主机 名 ， 那 么 相应 的 服务 挪 到 另 一 个 主 
机 时 他 们 也 不 必 知 道 。 举 例 来 说 ， 我 们 名 为 Linux 的 主机 有 以 下 2 个 
CNAME 记 录 : 


ftp IN CNAME linux.unpbook.com. 
WWW IN CNAME linux.unpbook.com. 


目前 处 于 IPv6 部 署 的 极 早 期 ， 系 统管 理 员 们 会 给 同时 支持 IPv4 和 
IPv6 的 主机 使 用 什么 样 的 命名 约定 尚 不 清楚 。 在 本 节 前 面 的 例子 中 ， 
我 们 给 主机 freebsd 同 时 指定 了 A 记录 和 AAAA 记 录 。 一 种 可 能 的 约 
EE: 把 A 记录 和 AAAA 记 录 都 置 于 主机 的 通常 名 字 之 下 (如 前 所 
示 ) ， 再 创建 男 一 个 名 字 以 -4 结尾 、 含 有 A 记录 的 RR， 男 一 个 名 字 
以 -6 结尾 、 含 有 AAAA 记 录 的 RR， 以 及 另 一 个 名 字 以 -611 结 尾 、 含 
有 AAAA 记 录 及 主机 的 链 路 局 部 地 址 的 RR (这 个 RR 有 时 便于 调 
试 ) 。 以 下 是 我 们 男 一 个 主机 的 所 有 这 些 记录 : 


192.168.42.2 
3ffe:b80:1f8d:2:204:acff :fe17:bf 38 
5 aix.unpbook.com. 


10 mailhost.unpbook.com. 

192.168.42.2 

3ffe:b80:1f8d:2:204:acff :fe17:bf38 
fe80::204:acff:fe17:bf38 


这 种 约定 给 予 我 们 额外 的 应 用 程序 协议 选择 控制 权 ， 有 具体 讨论 见 
Bo 


11.2.2 解析 器 和 名 字 服 务 器 


每 个 组 织 机 构 往往 运行 一 个 或 多 个 名 字 服 务 器 (name server) , 
它们 通常 就 是 所 谓 的 BIND (Berkeley Internet Name Domain 的 简称 ) 程 
序 。 诸 如 我 们 在 本 书 中 编写 的 客户 和 服务 器 等 应 用 程序 通过 调用 称 为 
解析 器 (resolver) 的 函数 库 中 的 函数 接触 DNS 服务 器 。 常 见 的 解析 器 
函数 是 将 在 本 章 讲解 的 gethostbyname 和 gethostbyaddr ， 前 者 
把 主机 名 映射 成 IPv4 地 址 ， 后 者 则 执行 相反 的 映射 。 


图 11-1 展 示 了 应 用 进程 、 解 析 器 和 名 字 服 务 句 之 间 的 一 个 典型 天 
系 。 现 在 考虑 编写 应 用 程序 代码 。 解 析 絮 代码 通常 包含 在 一 个 系统 孙 
数 库 中 ， 在 构造 应 用 程序 时 被 链 编 (link-editing) 到 应 用 程序 中 。 男 
有 些 系统 提供 一 个 由 全 体 应 用 进程 共享 的 集中 式 解 析 妖 守护 进程 ， 并 
提供 向 这 个 守护 进程 执行 RPC 的 系统 函数 库 代 码 。 不 论 哪 种 情况 ， 应 
用 程序 代码 使 用 通常 的 函数 调用 来 执行 解析 器 中 的 代码 ， 调 用 的 典型 
函数 是 gethostbyname 和 gethostbyaddr。 


应 用 进程 


应 用 程序 


fend 
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图 11-1 客户、 解析 器 和 名 字 服 务 器 的 典型 关系 


解析 器 代码 通过 读 取 其 系统 相关 配置 文件 确定 本 组 织 机 构 的 名 字 
服务 器 们 的 所 在 位 置 。 (我 们 使 用 复数 “名 字 服 务 絮 们 ”是 因为 大 多 数 
组 织 机 构 运 行 多 个 名 字 服 务 器 ， 尽 管 我 们 在 图 中 只 展示 了 一 个 本 地 服 
务 器 。 出 于 可 靠 和 宛 余 的 目的 ， 必 须要 设置 多 个 名 字 服 务 器 。) X 
件 /etc/resolv,.conf 通 党 包含 本 地 名 字 服 务 器 主机 的 卫 地 址 。 


既然 名 字 要 比 地 址 好 记 易 配 ， 要 是 能 够 在 /etc/resolv.conf 
文件 中 也 使 用 名 字 服 务 器 主机 的 名 字 该 有 多 好 ， 然 而 这 样 做 会 引入 一 
n 蛋 的 问题 : 名 字 服 务 器 主机 上 自身 的 名 字 到 地 址 转换 由 谁 执行 
WE‘ 


ET ae FE H] UDPTR] ZI H4 Ras AC ERIS) ^ MRA FRA 
mm D AEE, CRS DS HUDPTESET DESI LERE F 
Has WRARAK, Mi T UDPIHIBSESEBEZI, AHA ARS aS 
和 解析 器 会 目 动 切换 到 TCP 。 


11.2.3 DNS 替代 方法 


不 使 用 DNS 也 可 能 获取 名 字 和 地 址 信息 。 常 用 的 替代 方法 有 静态 
主机 文件 (通常 是 /etc/hosts 文 件 ， 如 图 11-21 所 示 ) 、 网 络 信息 系 
统 (Network Information System，NIS) 以 及 轻 权 目录 访问 协议 


(Lightweight Directory Access Protocol, LDAP) 。 不 六 的 是 ， 系 统管 


理 员 如 何 配置 一 个 主机 以 使 用 不 同类 型 的 名 字 服 务 是 实现 相关 的 。 
Solaris 2.x ^ HP-UX 10 及 后 续 版 本 、FreeBSD 5.x 及 后 续 版 本 使 用 文 
fF/etc/nsswitch.conf, AIXÍ&ERI X ffF/etc/netsvc.conf ° 
BIND 提供 了 自己 的 名 为 信息 检索 服务 (Information Retrival Sevice, 
IRS) 的 版 本 ， 使 用 文件 /etc/irs.conf。 如 果 使 用 名 字 服 务 器 查找 
主机 名 ， 那 么 所 有 这 些 系 统 都 使 用 文件 /etc/resolv .conf 指 定名 
字 服 务 器 的 了 了 地 址 。 和 幸运 的 是 ， 这 些 差异 对 于 应 用 程序 开发 人 员 来 说 
通常 是 透明 的 ， 我 们 只 需 调 用 诸如 gethostbyname 和 
gethostbyaddr 这 样 的 解析 器 函数 。 
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11.3 gethostbynameERZY 


认 知 计算 机 主机 通常 采用 直观 可 读 的 名 字 。 本 书 到 目前 为 止 的 所 
有 例子 都 有 意 使 用 IP 地 址 而 不 是 名 字 ， 这 样 我 们 能 够 确切 地 知道 : 对 
于 诸如 connect 和 sendto 这 样 的 画 数 ， 进 入 套 接 字 地 址 结构 的 是 什 
和 人 内容; 对 于 诸如 accept 和 recvfrom 这 样 的 函数 ， 返 回 的 是 什么 内 
容 。 然 而 大 多 数 应 用 程序 应 该 处 理 名 字 而 不 是 地 址 。 当 我 们 往 IPv6 转 
移 时 ， 这 一 点 变 得 尤为 正确 ， 因 为 IPv6 地 址 (十 六 进 制 数 串 ) 比 IPv4 
点 分 十 进 制 数 串 要 长 得 多 。 (上 一 节 中 的 AAAA 记 录 例 子 和 
ip6.arpa 域 PTR 记 录 例 子 足 以 说 明 问 题 了 。) 


查找 主机 名 最 基本 的 函数 是 gethostbyname“。 如 果 调 用 成 功 ， 
它 就 返回 一 个 指向 hostent 结 构 的 指针 ， 该 结构 中 含有 所 碍 找 主机 的 
所 有 IPv4 地 址 。 这 个 函数 的 局 限 是 只 能 返回 IPv4 地 址 ， 而 11.6 克 讲解 的 
getaddrinfo 函 数 能 够 同时 处 理 IPv4 地 址 和 IPv6 地 址 。POSIX 规 范 预 
警 可 能 会 在 将 来 的 某 个 版 本 中 撤销 gethostbyname 琴 数 。 


gethostbyname 夯 数 不 大 可 能 真正 消失 ， 除 非 整个 因特网 改 为 
使 用 IPv6， 那 可 能 是 在 遥遥 无 期 的 将 来 。 从 POSIX 规 范 中 撤销 该 范 数 
意 在 声明 新 的 程序 不 该 再 使 用 它 。 我 们 辟 励 在 新 的 程序 中 改 用 
getaddrinfo 函 数 。 


#include <netdb.h> 


struct hostent *gethostbyname(const char * hostname ); 


返回 ， 若 成 功 则 为 非 空 指针 ， 首 


为 NULL 且 设置 h_errno 


本 函数 返回 的 非 空 指针 指向 如 下 的 hostent 结 构 。 


struct hostent { 


char *h_name; /* official (canonical) name of host */ 

char **h_aliases; /* pointer to array of pointers to alias 
names */ 

int h_addrtype; /* host address type: AF_INET */ 

int h_length; /* length of address: 4 */ 


char **h_addr_list; /* ptr to array of ptrs with IPv4 addrs 


*/ 
I 


按照 DNS 的 说 法 ，gethostbyname 执 行 的 是 对 A 记 录 的 查询 。 它 
只 能 返回 IPv4 地 址 。 


图 11-2 所 示 为 hostent 结 构 和 它 所 指 问 的 各 种 信息 之 间 的 关系 ， 
其 中 假设 所 查询 的 主机 名 有 2 个 别名 和 3 个 IPv4 地 址 。 在 这 些 字 段 中 ， 
所 查询 主机 的 正式 主机 名 (official host) 和 所 有 别名 (alias) 都 是 以 
空 字符 结尾 的 C 字 符 串 。 


hostent{} 


别名 2 
\ in_addr{} 
X -| IP 地 址 1 | 


in addr{} 
iPllstll.2 


ae in_addr{} 


~ 
NULL ~ TIE 
| h_length=4 | 


图 11-2 ”hostent 结 构 和 它 所 包含 的 信息 


返回 的 h_name 称 为 所 查询 主机 的 规范 (canonical) 名 字 。 以 上 一 
节 的 CNAME 记 录 例 子 为 例 ， 主 机 ftp .unpbook .com 的 规范 名 字 是 
linux.unpbook.com。 男 外 ， 如 果 我 们 在 主机 aix 上 以 一 个 非 限 定 
主机 名 (例如 solaris) 调用 gethostbyname， 那 么 作为 规范 名 字 
返回 的 是 它 的 FQDN (Eilsolaris.unpbook.com) » 
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有 些 版 本 的 gethostbyname 函 数 实现 允许 hostmame 参 数 是 一 个 
点 分 十 进 制 数 串 ， 也 就 是 如 下 格式 的 调用 是 可 行 的 : 


hptr = gethostbyname("192.168.42.2"); 


添加 如 此 处 理 hostname 参 数 的 代码 是 因为 Rlogin 客 户 只 接受 主机 
名 ， 并 以 它 为 参数 调用 gethostbyname ， 而 不 接受 点 分 十 进 制 数 串 
[Vixie 1996] 。POSIX 规 范 允 许 但 不 强求 如 此 处 理 hosmame 参 数 ， 
此 考虑 可 移植 性 的 应 用 程序 不 能 依赖 这 个 特性 。 


gethostbyname 与 我 们 介绍 过 的 其 他 套 接 字 函 数 的 不 同 之 处 在 
F: 当 发 生 错误 时 ， 它 不 设置 errno 变 量 ， 而 是 将 全 局 整数 变量 
h_errno 设 置 为 在 头 文件 <netdb ,.h> 中 定义 的 下 列 常 值 之 一 : 


HOST. NOT. FOUND; 
TRY. AGAIN; 

NO RECOVERY; 

NO DATA (等 同 于 NO_ADDRESS) 


NO_DATA 错 误 表 示 指 定 的 名 字 有 效 ， 但 是 它 没 有 A 记录 。 只 有 MX 
记录 的 主机 名 就 是 这 样 的 一 个 例子 。 


如 今 多 数 解析 器 提供 名 为 hstrerror 的 函数 ， 它 以 某 个 
h_errno 值 作为 唯一 的 参数 ， 返 回 的 是 一 个 const char * 指 针 ， 指 
e 在 下 面 的 例子 中 ， 我 们 给 出 由 该 函数 返回 的 一 些 
字符 串 例 子 。 


例子 


图 11-3 给 出 一 个 简单 例子 ， 它 为 任意 数目 的 命令 行 参数 调用 
gethostbyname， 并 显示 返回 的 所 有 信息 ° 
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names Trastent.c 


1 #include “up h" 

2 int 

3 main(int args, canar **aàrqv] 

4 | 

5 char ‘pur, **ppir: 

6 char EzT (INET ADDESIRLEN] ; 


struct hostent  *hptr; 


& while (--arg- » 0) { 

9 ptr = *«earrv; 

10 it | ihpzr = gethostbyname:ptr)) == NULL) Í 

11 err msq/"gethostbyname erro- for host. $5. $s", 
12 ptr, hat rerror (^ errno)!; 

13 continue; 

14 } 

15 printf ("official hostname: $s\n", bEptr-»3à name!; 
16 for (pptr = hptr--h aliases; *pptr != NULL; pptr++) 
17 orincf("\talias: te\n", vpptr;; 

18 switch ‘nptr >h addrtypc) | 

19 case A7 INET: 

20 ppor = hptr-»h addr lisr; 

21 for ( ; *ppt-z l= NULL; pp-re, 

22 printf("itaddress: na 

23 Inet ntopíktpzr-»h addrtype, ~pptr, str, sizeof(str))!; 
24 oreax; 

25 cetau.t: 

26 err rec/"unknowr adóiress -ype"); 

27 Dreax; 

28 } 

29 ] 

30 exi-i0); 

31 ] 


names Tis tend. 


图 11-3 ”调用 gethostbyname 并 显示 返回 的 信息 


8-14 给 每 个 命令 行 参数 调用 gethostbyname 。 
15-17 输出 规范 主机 名 ， 后 跟 别 名 列表 。 


18-24 pptr 指 向 一 个 指针 数组 ， 其 中 每 个 指针 指 疝 一 个 地 址 。 
对 于 每 一 个 地 址 ， 我 们 调用 inet_ntop 并 输出 返回 的 字符 串 。 


我 们 首先 以 主机 aix 的 名 字 作 为 参数 运行 该 程序 ， 该 主机 只 有 一 
个 IPv4 地 址 。 


freebsd % hostent aix 
official hostname: aix.unpbook.com 


address: 192.168.42.2 


注意 ， 正 式 主机 名 就 是 FQDN。 另 外 ， 即 使 该 主机 有 IPv6 地 址 ， 
退回 的 也 仅仅 是 IPv4 地 址 。 
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接着 是 有 多 个 IPv4 地 址 的 一 个 Web 服 务 闫 主机 的 输出 。 


freebsd % hostent cnn.com 

official hostname: cnn. 
address: .236. 
address: .236. 
address: .236. 


address: .236. 
address: .236. 
address: .236. 
address: .236. 
address: .236. 


下 一 个 名 字 在 11.2 节 的 例子 中 有 一 个 CNAME 记 录 。 


freebsd % hostent www 

official hostname: linux.unpbook.com 
alias: www.unpbook.com 
address: 206.168.112.219 


正如 预期 的 那样 ， 正 式 主机 名 不 同 于 我 们 的 命令 行 参数 。 


为 了 查看 由 hstrerror 画 数 返 回 的 错误 信息 串 ， 我 们 先 指 定 一 个 
不 存在 的 主机 和 名， 再 指定 一 个 仅 有 MX 记录 的 名 字 。 


freebsd % hostent nosuchname.invalid 
gethostbyname error for host: nosuchname.invalid: Unknown host 


freebsd % hostent uunet.uu.net 
gethostbyname error for host: uunet.uu.net: No address associated 
with name 


114 gethostbyaddr WAX 


gethostbyaddr 函 数 试 图 由 一 个 二 进 制 的 IP 地 址 找到 相应 的 主 
机 名 ， 与 gethostbyname 的 行为 刚好 相反 。 
#include <netdb.h> 


struct hostent *gethostbyaddr(const char * addr , socklen_t len, 
int family); 


返回 : 若 成 功 则 为 非 空 指 针 ， 若 出 错 则 


为 NULL 且 设置 h_errno 


本 函数 返回 一 个 指 同 与 之 前 所 述 同 样 的 hnostent 结 构 的 指 UM P 
o o hostbyname 函 数 讲 解 过 的 hostent 结 构 ， 我 们 感 兴 
的 字段 通常 是 存放 规范 主机 名 的 h_name 。 


addr 参 数 实际 上 不 是 char B 而 是 一 个 指向 存放 IPv4 地 址 的 
某 个 in_addr 结 构 的 指针 ;len 参数 是 这 个 结构 的 大 小 : 对 于 IPv4 地 址 
为 4。 family NAF_INET o 
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按照 DNS 的 说 法 ，gethostbyaddr 在 in_addr .arpa 域 中 向 一 
个 名 字 服 务 器 查询 PTR 记 录 。 


11.5 getservbyname4ll 
getservbyport Wax 


像 主机 一 样 ， 服 务 也 通常 靠 名 字 来 认 知 。 如 果 我 们 在 程序 代码 中 
通过 其 名 字 而 不 是 其 端口 号 来 指 代 一 个 服务 ， 而 且 从 名 字 到 端口 号 的 
映射 关系 保存 在 一 个 文件 中 (通常 是 /etc/services) ， 那 么 即使 
端口 号 发 生变 动 ， 我 们 需 修改 的 仅仅 是 /etc/services 文 件 中 的 某 
一 行 ， 而 不 必 重 新 编译 应 用 程序 。getservbyname 函 数 用 于 根据 给 
定名 字 查 找 相 应 服务 。 


赋予 各 个 服务 的 端口 号 规范 列表 由 IANA 通过 
http:/www.iana.org/assignments/port-num-bers 维 护 (2.9 
T) 。V/etc/services 文 件 通常 包含 由 IANA 维护 的 规范 赋值 列表 的 
某 个 子 集 。 


#include <netdb.h> 


struct servent *getservbyname(const char * servname , const char * 
protoname ); 


返回 : 老成 功 则 为 非 空 指 


针 ， 若 出 错 则 为 NULL 


本 函数 返回 的 非 空 指针 指向 如 下 的 servent 结 构 。 


servent { 


*s name; /* official service name */ 
**s aliases; /* alias list */ 


s port; /* port number, network byte order */ 
*s proto; /* protocol to use */ 


服务 名 参数 servname 必 须 指 定 。 如 果 同 时 指定 了 协议 (BH 
protoname 参 数 为 非 空 指针 ) ， 那 么 指定 服务 必须 有 匹配 的 协议 。 有 些 
因特网 服务 既 用 TCP 也 用 UDP 提 供 (例如 DNS 以 及 图 2-18 中 的 所 有 服 
$5) ， 其 他 因特网 服务 则 仅仅 文 持 单 个 协议 (例如 FTP 要 求 使 用 


TCP) 。 如 果 protoname 未 指定 而 servname 指 定 服务 支持 多 个 协议 ， 
那么 返回 哪个 端口 号 取决 于 实现 。 通 常情 况 下 这 种 选择 无 关 紧 要 ， 
为 支持 多 个 协议 的 服务 往往 使 用 相同 的 TCP 端 口号 和 UDP 端口 号 ， 不 
过 这 点 并 没有 保证 。 

servent 结 构 中 我 们 关心 的 主要 字段 是 端口 号 。 有 既然 端口 号 是 以 
网 络 字 节 序 返回 的 ， 把 它 存放 到 套 接 字 地 址 结构 时 绝对 不 能 调用 
htons ° 


本 函数 的 典型 调用 如 下 : 


servent *sptr; 


getservbyname("domain", "udp"); /* DNS using UDP */ 
getservbyname("ftp", "tcp"); /* FTP using TCP */ 


getservbyname("ftp", NULL); /* FTP using TCP */ 
getservbyname("ftp", "udp"); /* this call will fail 


既然 FTP 仅 仅 文 持 TCP， 第 二 个 调用 和 第 三 个 调用 等 效 ， 第 四 个 
调用 则 会 失败 。 以 下 是 /etc/services 文 件 中 典型 的 文本 行 : 


freebsd % grep -e “ftp -e “domain /etc/services 
20/tcp #File Transfer [Default Data] 
21/tcp #File Transfer [Control] 
53/tcp #Domain Name Server 
53/udp #Domain Name Server 
ftp-agent 574/tcp #FTP Software Agent System 


ftp-agent 574/udp #FTP Software Agent System 
ftps-data 989/tcp # ftp protocol, data, 
over TLS/SSL 

ftps 990/tcp # ftp protocol, 
control, over TLS/SSL 


下 一 个 函数 getservbyport 用 于 根据 给 定 端口 号 和 可 选 协议 查 
找 相 应 服务 。 


#include <netdb.h> 


struct servent *getservbyport(int port, const char *protoname); 


E]: 着 成 功 则 为 非 空 指 


- 


servent *sptr; 


getservbyport(htons(53), "udp"); DNS using UDP */ 
getservbyport(htons(21), "tcp"); FTP using TCP */ 
getservbyport(htons(21), NULL); FTP using TCP */ 
getservbyport(htons(21), "udp"); this call will fail 


因为 UDP 上 没有 服务 使 用 端口 21， 所 以 最 后 一 个 调用 将 失败 。 


必须 清楚 的 是 ， 有 些 端口 号 在 TCP 上 用 于 一 种 服务 ， 在 UDP 上 却 
用 于 完全 不 同 的 另 一 种 服务 。 例 如 ; 


freebsd % grep 514 /etc/services 
shell 514/tcp cmd #like exec, but automatic 
syslog 514/udp 


表明 端口 514 在 TCP 上 由 rsh 命 令 使 用 ， 在 UDP 上 却 由 sys1og 守 
护 进程 使 用 。512~ 僵 514 范围 内 的 端口 都 有 这 个 特性 。 
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例子 : 使 用 gethostbyname 和 
getservbyname 


我 们 现在 可 以 把 图 1-5 中 的 TCP 时 间 获 取 客 户 程序 改 为 使 用 
gethostbyname 和 getservby-name， 并 改 用 2 个 命令 行 参 数 : + 
机 和 名 和 服务 名 。 图 11-4 是 改动 后 的 程序 。 它 还 展示 了 一 个 期 望 的 行 
为 ， 尝 试 连 接 到 多 窒 服 务 器 主机 的 每 个 IP 地 址 ， 直 到 有 一 个 连接 成 功 
或 所 有 地 址 尝试 完毕 为 止 。 


nanies/aaviraetoocit d.c 
1o$include ^ ur.p. hi" 


2 -nt 

3 naia!in- argc. char **arov 

4c 

5 int Sockzc. n; 

€ char —recvlinc[MAXLINE | 1]: 

T struct sockacdr_in servacdr; 

g etruct in adr **pptr; 

9 struct in ader *inetaddrp [2]; 

10 struct in sdcr inetaddr, 

1i struct hostert *hp; 

12 Struct servert *sp; 

13 if (argc t= 3} 

14 ecr_quit (“usage: daytimetcpelil «hostnane» «services"); 
15 if ( (hp = gethosthyname(argv{1)!}) == NULL) | 

16 if (inst aton'argv[1l, &inezaddr) == 0) ( 

17 e-r quit ("hostname error for ts: $s", argv[i], 
16 hstre-zror(h srrno)!; 

19 ] eise : 

<0 inetadarp Jj = é&inetacdr; 

al instadarp.1] = NULL; 

22 pptr = inetaddxp; 

24 

a4 } elsa [ 

25 pptr = (struct in addr **) Hp-»h addr list; 

76 } 

37 if ( (sp = getservhyname (ergv(2), "tep")) == WAL) 

28 err qguiL("gecservbyrane error fur ts", argv:2]!; 
29 fcr | ; *pptr != MULL; pptr++) ( 

30 sockfd = Sccke-|AF INET, SOCK_STREAM, 0); 

31 bzero(Sservaddir, sizeof (servaddr) i; 

32 serveddr.sin_family = AF INZT; 

33 servedir.sin port = sp-»s5 port; 

34 memcpy(&servaddr.sin adir, *pptr, sizeofí(szrucc in eddr):; 
35 print? (*trying %s\n", Sock_ntop((SA ^] &servaddr, sizeof (servaddr!)); 
36 i= (connect |cockid. (SA *) seervaddr, sizecf(servaddr)) == 2) 
27 brzcak; /* success */ 

48 err ret["ccnnect error"); 

39 close(sockfd!; 

au } 

az if (*pptr == HULL} 

42 err guit ("unable to connect"); 

41 w^ le ( (n m Read(sackfd, recvline, MAXTINE}) > 0) i 
44 recvlize[n] = 9; /* mill terninat= */ 

45 Fputs(recvline, stdout:; 

46 h 

4? exit!2); 

48 : 


nanres/daviiriereoclil.c 


图 11-4 使 用 gethostbyname 和 getservbyname 的 时 间 获 取 客 户 程序 
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调用 gethostbyname 和 getservbyname 


13-28 第 一 个 命令 行 参数 是 主机 名 ， 我 们 把 它 作为 参数 传递 给 
gethostbyname， 第 二 个 命令 行 参 数 是 服务 名 ， 我 们 把 它 作为 参数 
传递 给 getservbyname。 假 设 我 们 的 代码 使 用 TCP， 我 们 把 它 作为 
getservbyname 的 第 二 个 参数 。 如 采 gethostbyname 名 字 碍 找 失 
败 ， 我 们 就 党 试 使 用 inet_aton 函 数 (3.677) ， 确 定 其 参数 是 否 已 
E 若是 则 构造 一 个 由 相应 的 地 址 构成 的 单元 素 列 


尝试 每 个 服务 器 主机 地 址 


29-35 ”我们 把 对 socket 和 connect 的 调用 放 在 一 个 循环 中 ， 
该 循环 为 服务 絮 主 机 的 每 个 地 址 执行 一 次 ， 直 到 connect 成 功 或 IP 地 
址 列表 试 完 为 止 。 调 用 socket 以 后 ， 我 们 以 服务 器 主机 的 卫 地 址 和 端 
口 装 填 网 际 网 套 接 字 地 址 结构 。 尽 管 我 们 可 以 把 对 bzero 的 调用 和 它 
后 面 的 两 个 赋值 语句 置 于 循环 体 之 外 以 提高 执行 效率 ， 不 过 如 图 所 示 
MARRA i6 o Ej AS a LERI LETERAN N ZR A ERE 
4 o 


调用 connect 

36-39 接着 调用 connect“。 如 果 调 用 成 功 ， 那 就 使 用 break 语 
句 终止 循环 ， 否 则 输出 一 个 出 错 消 奶 并 关闭 套 接 字 。 回 顾 一 下 ， 我 们 
知道 connect 调 用 失败 的 描述 人 符 必须 关闭 ， 不 能 再 用 。 
检查 是 否 失 败 


41-42 ”如 果 循环 终止 的 原因 是 没有 一 个 connect 调 用 成 功 ， 屠 
就 终止 程序 运行 。 


读 取 服 务 器 的 应 答 


43-47 否则， 我 们 读 取 服务 器 的 应 答 ， 并 在 服务 器 关闭 连接 后 
终止 程序 运行 。 


如 果 我 们 针对 正在 运行 标准 daytime 服 务 器 的 某 个 主机 运行 本 客户 
程序 ， 我 们 束 会 得 到 预期 的 输出 : 


freebsd % daytimetcpclil aix daytime 
trying 192.168.42.2:13 


Sun Jul 27 22:44:19 2003 


— BARE eI — PA EIST daytime RRA a8 8) Z Te 5285 
行 本 程序 : 


freebsd % daytimetcpclil gateway.tuc.noao.edu daytime 
trying 140.252.108.1:13 

connect error: Operation timed out 

trying 140.252.1.4:13 


connect error: Operation timed out 
trying 140.252.104.1:13 

connect error: Connection refused 
unable to connect 
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11.6 getaddrinfoENZX 


gethostbyname 和 gethostbyaddr 这 两 个 函数 仅仅 支持 IPv4。 
正如 11.20 节 将 介绍 的 那样 ， 解 析 IPv6 地 址 的 API 经 历 了 若干 次 反复 ; 
最 终结 果 是 getaddrinfo 函 数 。getaddrinfo 函 数 能 够 处 理 名 字 到 
地 址 以 及 服务 到 端口 这 两 种 转换 ， 返 回 的 是 一 个 sockaddr 结 构 而 不 
是 一 个 地 址 列表 。 这 些 sockaddr 结 构 随后 可 由 套 接 字 函 数 直 接 使 
用 。 如 此 一 来 ， zu uuu le A 
函数 内 部 。 应 用 程序 只 需 处 理由 getaddrinfo 填 写 的 套 接 字 地 址 结 
构 。 该 函数 在 POSIX 规 范 中 定义 。 


POSIX 对 这 个 函数 的 定义 来 源 于 一 个 由 Keith Sklower 早 先 提 出 的 
名 为 getconninfo 的 函数 。 这 个 函数 是 他 与 Eric Allman ^ Walliam 
Durst ^ Michael Karels ` Steven Wise 共 同 讨论 的 结果 ， 起 源 于 Eric 
Allman 编 写 的 一 个 早期 实现 。 指 定 主机 名 和 服务 名 足以 独立 于 协议 细 
已 连 接 到 一 个 具体 服务 ， 这 个 评述 是 由 Marshall Rose 在 X/Open 的 一 个 
提议 中 作出 的 。 


#include <netdb.h> 


int getaddrinfo(const char *hostname , const char *service , 
const struct addrinfo *hints , struct addrinfo 


**result ); 


返回 : 若 成 功 则 为 9， 若 出 错 则 


为 非 6 ( 见 图 11-7) 


本 函数 通过 result 指 针 参 数 返 回 一 个 指向 addrinfo 结 构 链表 的 指 
针 ， 而 addrinfo 结 构 定 义 在 头 文 件 <netdb .h> 中 。 


struct addrinfo { 


int ai_flags; /* AI_PASSIVE, AI_CANONNAME */ 

int ai_family; /* AF_xxx */ 

int ai_socktype; /* SOCK xxx */ 

int ai_protocol; /* 0 or IPPROTO xxx for IPv4 
and IPv6 */ 

socklen t ai addrlen; /* length of ai addr */ 

char *ai canonname; /* ptr to canonical name for 


host */ 


struct sockaddr *ai_addr; /* ptr to socket address 
structure */ 

struct addrinfo *ai_next; /* ptr to next structure in 
linked list */ 
}; 


其 中 hostname 人 参数 是 一 个 主机 名 或 地 址 串 (IPv4 的 点 分 十 进 制 数 
串 或 IPv6 的 十 六 进 制 数 串 ) 。service 参 数 是 一 个 服务 名 或 十 进 制 端口 
FAR o (习题 11.4 也 要 求 允许 使 用 地 址 串 作 为 主机 名 ， 使 用 端口 号 
数 串 作为 服务 名 。,) 


Pints 参 数 可 以 是 一 个 空 指针 ， 也 可 以 是 一 个 指 同 某 个 addrinfo 
结构 的 指针 ， 调 用 者 在 这 个 结构 中 填 入 关于 期 望 返 回 的 信息 类 型 的 蜡 
示 。 举 例 来 说 ， 如 果 指 定 的 服务 既 支 持 TCP 也 支持 UDP (例如 指 代 某 
个 DNS 服 务 絮 的 domain 服 务  ， 那 么 调用 者 可 以 把 hints 结 构 中 的 
ai_socktype 成 员 设 置 为 SOCK_DGRAM， 使 得 返回 的 仅仅 是 适用 于 
数据 报 套 接 字 的 信息 。 
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hints 结 构 中 调用 者 可 以 设置 的 成 员 有 : 

ai flags ( 零 个 或 多 个 或 在 一 起 的 AI_xxx 值 ); 
ai family ( 某 个 AF_xxx 值 ) ; 

ai socktype 〈 某 个 SOCK_xxx 值 ) ; 

ai protocol? 

其 中 ai_flags 成 员 可 用 的 标志 值 及 其 含义 如 下 。 
AI PASSIVE 套 接 字 将 用 于 被 动 打 开 。 


AI CANONNAME ”告知 getaddrinfo 函 数 返 回 主机 的 规范 名 
字 。 

AI NUMERICHOST 防止 任何 类 型 的 名 字 到 地 址 映射 ，hostname 
参数 必须 是 一 个 地 址 串 。 


AI_NUMERICSERV 防止 任何 类 型 的 名 字 到 服务 映射 ，service 参 
数 必 须 是 一 个 十 进 制 端口 号 数 串 。 


AI VAMAPPED 如果 同时 指定 ai_family 成 员 的 值 为 
AF_INET6， 那 么 如 果 没 有 可 用 的 AAAA 记 录 ， 就 返回 与 A 记录 对 应 的 
IPv4 映 射 的 IPv6 地 址 。 


AI ALL 如 果 同 时 指定 AI_V4MAPPED 标 志 ， 那 么 除了 返回 与 
AAAA 记 录 对 应 的 IPv6 地 址 外 ， 还 返回 与 A 记 录 对 应 的 IPv4 映 射 的 IPv6 
地 址 。 


AI ADDRCONFIG 按照 所 在 主机 的 配置 选择 返回 地 址 类 型 ， 也 
。 ia 所 在 主机 回馈 接口 以 外 的 网 络 接口 配置 的 IP 地 址 版 本 一 


如 果 jints 参 数 是 一 个 空 指 针 ， 本 函数 束 假 设 ai_flag、 
ai_socktype 和 ai_protocol 的 值 均 为 0，ai_family 的 值 为 
AF_UNSPEC ° 


如 果 本 函数 返回 成 功 (0) ， 那 么 由 result 参 数 指向 的 变量 已 被 填 
入 一 个 指针 ， 它 指 癌 的 是 由 其 中 的 ai_next 成 员 串 接 起 来 的 
addrinfo 结 构 链表 。 可 导致 返回 多 个 addrinfo 结 构 的 情形 有 以 下 
两 个 。 


(1) 如 果 与 hosmame 参 数 天 联 的 地 址 有 多 个 ， 那 么 适用 于 所 请 求 地 
址 族 (可 通过 hints 结 构 的 ai_family 成 员 设 置 ) 的 每 个 地 址 都 返回 一 
个 对 应 的 结构 。 


NN 如 果 service 参 数 指 定 的 服务 支持 多 个 套 接 字 类 型 ， 那 么 每 个 套 
接 字 类 型 都 可 能 返回 一 个 对 应 的 结构 ， 具 体 取决 于 hints 结 构 的 
ai_socktype 成 员 。 (注意 ，getaddrinfo 的 多 数 实现 认为 只 能 按 
照 由 ai_socktype 成 员 请 求 的 套 接 字 类 型 端口 号 数 串 到 端口 的 转 
换 ， 如 果 没 有 指定 这 个 成 员 ， 那 就 返回 一 个 错误 。) 
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举例 来 说 ， 如 果 在 没有 提供 任何 上 暗示 信息 的 前 提 下 ， 请 求 查 找 有 2 
个 IP 地 址 的 某 个 主机 上 的 domain 服 务 ， 那 将 返回 4 个 addrinfo 结 
构 ， 分 别 是 : 


。 第 一 个 IP 地 址 组 合 SOCK_STREAM 套 接 字 类 型 ; 


。 第 一 个 IP 地 址 组 合 SOCK_DGRAM 套 接 字 类 型 . 
。 第 二 个 IP 地 址 组 合 SOCK_STREAM 套 接 字 类 型 
。 第 二 个 IP 地 址 组 合 SOCK_DGRAM 套 接 字 类 型 。 


图 11-5 展 示 了 本 例子 。 当 有 多 个 addrinfo 结 构 返 回 时 ， 这 些 结 
构 的 先后 顺序 没有 保证 ， 也 就 是 说 ， 我 们 并 不 能 假定 TCP 服 务 总 是 先 
于 UDP 服务 返回 。 


尽管 没有 保证 ， 本 函数 的 实现 却 应 该 按照 DNS 返 回 的 顺序 返回 各 
个 IP 地 址 。 有 些 解 析 器 允许 系统 管理 员 在 /etc/resolv .conf 文 件 中 
指定 地 址 的 排序 顺序 。IPv6 可 指定 地 址 选择 规则 (RFC 3483 [Draves 
2003] ) ， 可 能 影响 由 getaddrinfo 返 回 地 址 的 顺序 e 


在 addrinfo 结 构 中 返回 的 信息 可 现成 用 于 socket 调 用 ， 随 后 现 
成 用 于 适合 客户 的 connect 或 sendto 调 用 ， 或 者 是 适合 服务 器 的 
bindiiHi ° socket KAMER addr inf oft FY 
ai family » ai_socktypefilai_addrfin ° connect binds 
数 的 第 二 个 和 第 三 个 参数 就 是 该 结构 中 的 ai _addr (— T3838 2528 
型 套 接 字 地 址 结构 的 指针 ， 地 址 结构 的 内 容 由 getaddrinfo 函 数 十 
写 ) 和 ai_addrlen (这 个 套 接 字 地 址 结构 的 大 小 ) 成 员 。 


如 果 在 hints 结 构 中 设置 了 AI_CANONNAME 标 志 ， 那 么 本 函数 返回 
的 第 一 个 addrinfo 结 构 的 ai_canonname 成 员 指 向 所 查找 主机 的 规 
范 名 字 。 按 照 DNS 的 说 法 ， 规 范 名 字 通 党 是 FCQDN。 诸 如 telLnet 之 类 
程序 往往 使 用 这 个 标志 以 显示 所 连接 到 主机 的 规范 名 字 ， 这 样 即使 用 
户 给 定 的 是 一 个 简单 名 字 或 别名 ， 他 们 也 能 搞 清 真正 查找 的 名 字 。 


图 11-5 给 出 了 执行 下 列 程序 片段 返回 的 信息 。 


struct addrinfo hints, *res; 


bzero(&hints, sizeof(hints)); 
hints.ai_flags = AI_CANONNAME; 
hints.ai family = AF INET; 


getaddrinfo("freebsd4", "domain", &hints, &res); 


Al AbRresS ah MAAN A ale AgetaddrinfowamAa aac 
的 内 存 空间 SiR malloc HH) 。 我 们 假设 主机 freebsd4 的 规 


范 名 字 是 freebsd4.unpbook,.com， 并 且 它 在 DNS 中 有 2 个 IPv4 地 


ues 
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res: | } 


pe----------------------- 


7— ai next 


ai family 
Bi sccktype |SOCK DGRAM 
IPPROTG UDF Q|freebad4.unpbock.comi2 


&i addrlen |16 一 -一 


Lt 


AF INET 


I6,AF INET, 53 
135.197.17.100 


Bi family AF INET 
ai sockxtype |SOCK DGkAM 
iPPROTO UDF 
ai addrlen  |i&6 
ai cancnname |NULL sockaddr_in{} 
16, AF_INET, 54 
172.24.37.94 
addrinfo{} 
AF INET 
ai sockLype |SOCK_STREAM 
ai protocol |IPPRCTO TCP 
ai addrlen 16 
ai canonname |NULL sockaddr in 


ai aódr 16, AF_INBT, 53 


135.i97.i7.100 


addrinfo{} 


ai_family AF INE? 
ai_socktype | SOCK_STREAM 


ai protccol ,IPPROTO TCP 
ai addrlen  |16 
ai canonname | NULL sockaddr in() 


16, AF_INET, £3 
172.24.37.54 


ai addr 
al next 


ee ee ee 


图 11-5 getaddrinfo 返 回信 息 的 实例 
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端口 53 用 于 domain 服 务 。 这 个 端口 号 在 套 接 字 地 址 结构 中 按照 
网 络 字 节 序 存放 。 返 回 的 ai_protocol 值 或 为 IPPROTO_TCP， 或 为 
IPPROTO UDP 。 要 是 ai_family 和 ai_socktype 组 合 能 够 完全 指 
定 TCP 或 UDP 协议 ， 那 么 返回 的 ai _protocol 值 为 0 也 可 以 接受 。 也 
就 是 说 ， 如 果 系 统 没有 实现 除 TCP 外 的 其 他 SOCK_STREAM 协 议 (如 
SCTP) ， 套 接 字 类 型 值 为 SOCK_STREAM 的 那 两 个 addrinfo 结 构 协 
议 值 可 为 0; 同样 地 ， 如 果 系 统 没 有 实现 除 UDP 外 的 其 他 SOCK_DGRAM 
协议 (编写 本 书 时 还 没有 标准 化 的 协议 ， 不 过 IETF 正 在 开发 两 个 这 类 
协议 ) ， 套 接 字 类 型 值 为 SOCK_DGRAM 的 那 两 个 addrinfo 结 构 协 议 
值 可 为 0。 最 安全 的 做 法 是 让 getaddrinfo 总 是 返回 明确 的 协议 值 。 


图 11-6 汇 总 了 根据 指定 的 服务 名 (可 以 是 一 个 十 进 制 端口 号 数 
FR) 和 ai_socktype 暗 示 信 息 为 每 个 通过 主机 名 查找 获得 的 IP 地 址 返 
回 addrinfo 结 构 的 数目 。 


服务 以 名 闻 标 识 ， 它 的 提供 者 为 ; 
TCP. UDP 


WTC VU 
ILTCP 仅 UDP caia 


图 11-6 ”为 每 个 IP 地 址 返回 的 addrinfo 结 构 的 数 晶 


在 不 考 虚 SCTP 的 前 提 下 ， 只 有 在 未 提供 ai_socktype 了 暗示 信息 
时 才 可 能 为 每 个 IP 地 址 返回 多 个 addrinfo 结 构 ， 此 时 或 者 服务 以 名 
字 标 识 并 且 同 时 支持 TCP 和 UDP (在 /etc/services 文 件 中 指 
HH) ， 或 者 服务 以 端口 号 标识 。 


如 有 果 枚 举 getaddrinfo 所 有 64 种 可 能 的 输入 (因为 它 共 有 6 个 二 
值 输入 变量 ) ， 那 么 许多 是 无 效 的 ， 有 些 则 没有 多 大 意义 。 为 此 我 们 
只 查看 一 些 负 见 的 输入 。 


。 指定 hostname 和 service。 这 是 TCP 或 UDP 客户 进程 调用 
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getaddrinfo 的 常规 输入 。 该 调用 返回 后 ，TCP 客 户 在 一 个 循环 
中 针对 每 个 返回 的 了 地 址 ， 逐 一 调用 socket 和 connect， 直 到 
有 一 个 连接 成 功 ， 或 者 所 有 地 址 尝试 完毕 为 止 。 我 们 将 在 图 11-10 
中 随 自行 开发 的 tcp_connect 画 数 给 出 这 样 的 一 个 例子 。 

对 于 UDP 客户 ,由 getaddrinfo 填 入 的 套 接 字 地 址 结构 用 于 调 
用 sendto 或 connect。 如 果 客 户 能 够 判定 第 一 个 地 址 看 来 不 工 
YE 〈 其 手段 不 外 乎 或 者 在 已 连接 的 UDP 套 接 字 上 收 到 出 错 消 息 ， 
或 者 在 未 连接 的 套 接 字 上 经 历 消 息 接 收 超时 ) ， 那 么 可 以 党 试 其 
余 的 地 址 。 

如 果 客 户 清楚 自己 只 处 理 一 种 类 型 的 套 接 字 (例如 Telnet 和 FTP 客 
户 只 处 理 TCP，TFTP 客 户 只 处 理 UDP) ， 那 么 应 该 把 mints 结 构 的 
ai_socktype 成 员 设 置 成 SOCK_STREAM 或 SOCK_DGRAM ° 


。 典型 的 服务 器 进程 只 指定 service 而 不 指定 hostname， 同 时 在 hints 


结构 中 指定 AI_PASSIVE 标 志 。 返 回 的 套 接 字 地 址 结构 中 应 含有 
一 个 值 为 INADDR_ANY (对 于 IPv4) 或 IN6ADDR_ANY_INIT (对 
于 IPv6) 的 下地 址 。TCP 服 务 器 随后 调用 socket、bind 和 
1isten。 如 果 服 务 器 想 要 mal11oc 另 一 个 套 接 字 地 址 结构 以 从 
accept 获 取 客 户 的 地 址 ， 那 么 返回 的 ai _ addrlen 值 给 出 了 这 
个 套 接 字 地 址 结构 的 大 小 。 

UDP 服务 器 将 调用 socket、bind 和 recvfrom。 如 果 服 务 器 想 
要 malloc 男 一 个 套 接 字 地 址 结构 以 从 recvfrom 获 取 客 户 的 地 
址 ， 那 么 返回 的 ai _addrlen 值 给 出 了 这 个 套 接 字 地 址 结构 的 大 
小 。 

与 典型 的 客户 一 样 ， 如 果 服 务 器 清楚 上 自己 只 处 理 一 种 类 型 的 套 接 
字 ， 那 么 应 该 把 hints 结 构 的 ai_socktype 成 员 设置 成 
SOCK_STREAM 或 SOCK_DGRAM。 这 样 可 以 避免 返回 多 个 结构 ， 
其 中 可 能 出 现 错误 的 ai_socktype 值 。 

到 目前 为 止 ， 我 们 展示 的 TCP 服 务 器 仅仅 创建 一 个 监听 套 接 字 ， 


UDP 服务 郁 也 仅仅 创建 一 个 数据 报 套 接 字 。 这 也 是 我 们 讨论 上 一 


点 隐 含 的 一 个 假设 。 服 务 器 程序 的 另 一 种 设计 方法 是 使 用 
select 或 po11 函 数 让 服务 器 进程 处 理 多 个 套 接 字 。 这 种 情形 


下 ， 服 务 器 将 遍历 由 getaddrinfo 返 回 的 整个 addrinfo 结 构 链 
表 ， 并 为 每 个 结构 创建 一 个 套 接 字 ， 再 使 用 Select 或 po11。 


这 个 技术 的 问题 在 于 ，getaddrinfo 返 回 多 个 结构 的 原因 之 一 
是 该 服务 可 同时 由 IPv4 和 IPv6 处 理 (图 11-8) 。 然 而 正如 将 在 12.2 广 看 
到 的 那样 ， 这 两 个 协议 并 非 完全 独立 。 也 就 是 说 ， 如 果 我 们 为 某 个 给 
定 端口 创建 了 一 个 IPv6 监 听 套 接 字 ， 那 么 没有 必要 为 同一 个 端口 再 创 
建 一 个 IPv4 套 接 字 ， 因 为 来 自 IPv4 客 户 的 连接 将 由 协议 栈 和 IPv6 监 听 
套 接 字 目 动 处 理 ， 而 不 论 是 否 设置 了 IPV6_V60NLY 套 接 字 选项 。 


RÆ getaddrinfo Hš kgethostbyname#i 
getservbyname 这 两 个 函数 “好 ”( 它 方便 我 们 编写 协议 无 关 的 程序 
代码 ， 单 个 函数 能 够 同时 处 理 主机 名 和 服务 ， 所 有 返回 信息 都 是 动态 
而 不 是 静态 分 配 的 ) ， 不 过 它 仍 然 没 有 像 期 待 的 那样 好 用 。 问 题 在 于 
我 们 必须 先 分 配 一 个 hints 结 构 ， 把 它 清 零 后 填写 需要 的 字段 ， 再 调用 
getaddrinfo， 然 后 遍历 一 个 链表 逐一 党 试 每 个 返回 地 址 。 在 以 后 
几 节 我 们 将 为 典型 的 TCP 或 UDP 客户 和 服务 器 提供 一 些 较 简 单 的 接 
口 ， 并 用 在 本 书 以 后 的 程序 编写 中 。 

getaddrinfo 和 解决 了 把 主机 名 和 服务 名 转换 成 套 接 字 地 址 结构 
的 问题 。 我 们 将 在 11.17 节 讲解 它 的 反 义 函 数 getnameinfo， 它 把 套 
接 字 地 址 结构 转换 成 主机 名 和 服务 名 。 


11.7 gai_strerror K% 


图 11-7 给 出 了 可 由 getaddrinfo 返 回 的 非 0 错误 值 的 名 字 和 含 
义 。gai_strerror 以 这 些 值 为 它 的 唯一 参数 ， 返 回 一 个 指向 对 应 的 
出 错 信息 串 的 指针 。 
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EAI AGAIN 名 凶 解 忻 中 临时 大 败 
EA. BADFLAGS ail_flags 的 信 无 效 
EAI FAII, AV CIE PU YR BS HAC 


EA: FAMILY 小 支持 ai family 


EAI MEMORY 内 存 分 配 失 败 

EA- NONAME hostname 或 service 未 提供， 或 者 不 可 知 
ENT_OVERFLOW 用 户 参 数组 冲 区 游 出 ( 仪 限 getnameinfo1) 前 数 ) 
EAT SERVICE 不 支持 ai socktype 类 幸 的 service 
BAT_SOCKTYPE | 不 支持 ai_socktype 

mar SYSTEM | 在 errno 变 量 中 有 系统 错误 返回 


图 11-7 getaddrinfo 返 回 的 非 0 错误 常 值 


#include <netdb.h> 


const char *gai_strerror(int error ); 


返回 : 指向 错误 描述 消息 


字符 串 的 指针 


11.8 freeaddrinfoERZN 


由 getaddrinfo 返 回 的 所 有 存储 空间 都 是 动态 获取 的 〈 璧 如 来 
自 malloc 调 用 ) ， 包 括 addrinfo 结 构 、ai_addr 结 构 和 
ai_canonname 字 符 串 。 这 些 存 储 空间 通过 调用 freeaddrinfo 返 还 
给 系统 。 


#include <netdb.h> 
void freeaddrinfo(struct addrinfo *ai); 


ai 参数 应 指向 由 getaddrinfo 返 回 的 第 一 个 addrinfo 结 构 。 这 
个 链表 中 的 所 有 结构 以 及 由 它们 指向 的 任何 动态 存储 空间 ( 壁 如 套 接 
字 地 址 结构 和 规范 主机 名 ) 都 被 释放 掉 。 


假设 我 们 调用 getaddrinfo， 遍 历 返 回 的 addrinfo 结 构 链 表 后 
找到 所 需 的 结构 。 如 果 我 们 为 保存 其 信息 而 仅仅 复制 这 个 addrinfo 
结构 ， 然 后 调用 freeaddrinfo， 那 就 引入 了 一 个 潜藏 的 错误 。 原 因 
在 于 这 个 addrinfo 结 构 本 身 指 癌 动态 分 配 的 内 存 空间 (用 于 存放 套 
接 字 地 址 结构 和 可 能 有 的 规范 主机 名 ) ， 因 此 由 我 们 保存 的 结构 指 辐 
的 内 存 空 间 已 在 调用 freeaddrinfo 时 返还 给 系统 ， 稍 后 可 能 用 于 其 
他 目的 。 

只 复制 这 个 addrinfo 结 构 而 不 复制 由 它 转 而 指 癌 的 其 他 结构 称 
为 浅 复 制 (shallow copy) 。 既 复制 这 个 addrinfo 结 构 又 复制 由 它 指 
向 的 所 有 其 他 结构 称 为 深 复 制 (deep copy) ° 
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11.9 getaddrinfoWA: IPv6 


POSIX 规 范 定义 了 getaddrinfo 函 数 以 及 该 函数 为 I[Pv4 或 IPv6 返 
回 的 信息 。 在 以 图 11-8 汇 总 这 些 返 回 值 之 前 ， 我 们 注意 以 下 几 点 。 


。 getaddrinfo 在 处 理 两 个 不 同 的 输入 : 一 个 是 套 接 字 地 址 结构 
类 型 ， 调 用 者 期 待 返回 的 地 址 结构 符合 这 个 类 型 ， 另 一 个 是 资源 
记录 类 型 ， 在 DNS 或 其 他 数据 库 中 执行 的 查找 符合 这 个 类 型 。 
由 调用 者 在 hints 结 构 中 提供 的 地 址 族 指 定 调用 者 期 待 返回 的 套 接 
字 地 址 结构 的 类 型 。 如 果 调 用 者 指定 AF_INET, getaddrinfo 
函数 就 不 能 返回 任何 sockaddr_in6 结 构 ， 如 果 调 用 者 指定 
AF_INET6，getaddrinfo 函 数 束 不 能 返回 任何 sockaddr_in 
结构 。 
POSIX 声 称 如 果 调 用 者 指定 AF_UNSPEC， 那 么 getaddrinfo 函 
数 返 回 的 是 适用 于 指定 主机 名 和 服务 名 且 适 合 任 意 协议 族 的 地 
址 。 这 就 意味 着 如 果 某 个 主机 既 有 AAAA 记 录 义 有 A 记录 ， 那 么 
AAAA 记 录 将 作为 sockaddr_in6 结 构 返 回 ，A 记 录 将 作为 
sockaddr_in 结 构 返 回 。 在 sockaddr_in6 结 构 中 作为 IPv4 映 
射 的 IPv6 地 址 返回 A 记录 没有 任何 意义 ， 因 为 这 么 做 没有 提供 任 
何 额外 信息 :这些 地 址 已 在 sockaddr_in 结 构 中 返回 过 了 了。 
POSIX 的 这 个 声明 也 意味 着 如 果 设 置 了 AI_PASSIVE 标 志 但 是 没 
有 指定 主机 名 ， 那 么 IPv6 通 配 地 址 (IN6ADDR_ANY_INIT 或 
0:0) 应 该 作为 sockaddr_in6 结 构 返 回 ， 同 样 IPv4 通 配 地 址 
(INADDR_ANY 或 .0) 应 该 作为 sockaddr_in 结 构 返 回 。 首 先 返 
回 IPv6 通 配 地 址 也 是 有 意义 的 ， 因 为 我 们 将 在 12.2 节 看 到 双 栈 主 
机 上 的 IPv6 服 务 恬 能 够 同时 处 理 IPv6 客 户 和 IPv4 客 户 。 
在 hints 结 构 的 ai_family 成 员 中 指定 的 地 址 族 以 及 在 ai flags 
成 员 中 指定 的 AI_V4MAPPED 和 AI_ALL 等 标志 决定 了 在 DNS 中 查 
找 的 资源 记录 类 型 (A 和 /或 AAAA) ， 也 决定 了 返回 地 址 的 类 型 
(Pv4、IPv6 和 /或 ITPv4 映 射 的 ITPv6) 。 图 11-8 对 此 作 了 汇总 。 
主机 名 参数 还 可 以 是 IPv6 的 十 六 进 制 数 串 或 ITPv4 的 点 分 十 进 制 数 
串 。 这 个 数 串 的 有 效 性 取决 于 由 调用 者 指定 的 地 址 族 。 如 果 指 定 
AF_INET， 那 就 不 能 接受 IPv6 的 十 六 进 制 数 串 ， 如 果 指 定 
AF_INET6， 那 天 不 能 接受 IPv4 的 点 分 十 进 制 数 串 。 然 而 如 果 指 


定 的 是 AF_UNSPEC， 那 么 这 两 种 数 串 都 可 以 接受 ， 返 回 的 是 相应 
类 型 的 套 接 字 地 址 结构 。 


有 人 可 能 会 争论 说 ， 如 果 指 定 了 AF_INET6， 那 么 点 分 十 进 制 数 
串 应 该 作为 IPv4 映 射 的 IPv6 地 址 在 sockaddr_in6 结 构 中 返回 。 然 而 
得 到 同样 结果 另 有 简单 的 方法 ， 束 是 在 点 分 十 进 制 数 串 前 加 上 
0::ffff: < 
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图 11-8 汇 总 了 getaddrinfo 如 何 处 理 IPv4 和 IPv6 地 址 。“ 结 果 ” 一 
栏 是 在 给 定 前 三 栏 的 变量 后 ， 该 函数 返回 给 调用 者 的 结 采 。“ 行 为 "一 
栏 则 说 明 该 函数 如 何 获取 这 些 结果 。 


Tt X 


调用 者 持 定 | 调用 者 指定 
的 主机 加 Iri bb M: 
以 sockaadxr in5 全 返回 时 有 AAAA AAAA 记 承 搜 索 历 上 和 A 
记录 ， 以 sockadar_in{] 设 同 所 有 A | WRU 
AF UNSPEC 记录 
bei aa m "jsockedir ins4|) 
mr rues 一 个 sockadar in(] inet ztor[AP INET: 
Plaockadir_ins{ iR PIR TTAAAA AAAAT sc] de 
ica 
*:ai flags 77 AZ VAMAPEED ii JE AAAAWRVE, dX 
F: 车 存在 AAAA 记 录 则 以 socka- | HRA TRR 
3dz inc: BRIPIBEAL AA AA ide, 18 
VE DL sockaddr iné{) fE yg Pu I QF 
ff IPveith HE MAT ff A ico 
Z ai flegs ^t AT V4MAPPED 和 AAAA ü sit fH de I FA | 
AI ALLHÉÉE F: Eisockadar ine‘) | 记录 搜索 
wa [3 DT fi AAAA IR, A 
sockaddr ine:) fF X IPv4 9k Ay ity 
| TIPv6 地 址 返 到 所 有 AA 记 录 
meena bass) T snckackir_ins{} inet stor {AF INET6} 


inet stor [AP INET) 


ERFA 
PHP: 
+ seh Ray) | AP INET6 


Mr iS | RIIE HE | 
主机 各 以 yokaridr_in{} 返 回 所 有 A 记录 Amis 
AR TNET FARER 作为 主机 名 查找 


nir aE ETA i A cka inf} inet stor [AF INET) 


EDO - sockaddr _ins{}Hl—* inet ctor[AF INETA| 

Ur 0.0.0.0 sockadir in(; ` inet zton[AP INET: 

| AF INETé | 隐 合 [y:0 -4sockadàr inSi] inet ztor[AF INET6| 
LEMLUITITNEMEL COM MNNENEELELLEU 

exu won| BEN, ee iR A inet otor [AF MET 
To EDO! T sockadür in5() inet ctor [AF INET6) 


AF INET 7127 9.9.1 “4 s0ckadar_in{] inet _stor {(AP_INET! 
图 11-8 getaddrinfo 画 数 及 其 行为 和 结果 汇总 
图 11-8 仅 仅 说 明 getaddrinfo 如 何 处 理 IPv4 和 IPv6， 也 就 是 返回 
给 调用 者 的 地 址 数目 。 返 回 给 调用 者 的 addrinfo 结 构 的 确切 数目 还 
取决 于 指定 的 套 接 字 类 型 和 服务 名 ， 融 如 图 11-6 总 结 的 那样 。 
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11.10 getaddrinfowmR: 例子 


我 们 将 使 用 一 个 测试 程序 来 展示 getaddrinfo 的 一 些 例子 ， 该 
程序 允许 我 们 输入 所 有 参数 : 主机 名 、 服 务 名 、 地 址 族 、 套 接 字 类 
型 、AI_CANONNAME 和 AI_PASSIVE 标 志 。 (我 们 没有 给 出 这 个 程序 
的 源 文件 ， 因 为 它 约 有 350 行 教 益 不 大 的 代码 。 如 前 言 中 所 述 ， 它 作为 
本 书 的 源 代 码 提 供 。) 该 程序 输出 getaddrinfo 函 数 返 回 的 数目 不 
定 的 addrinfo 结 构 中 的 有 关 信息 ， 包 括 调 用 socket 所 用 的 参数 以 及 
每 个 套 接 字 地 址 结构 中 的 地 址 。 


我 们 首先 展示 与 图 11-5 同 样 的 例子 。 


freebsd % testga -f inet -c -h freebsd4 -s domain 


socket(AF_INET, SOCK_STREAM, 17), ai_canonname = 
freebsd4.unpbook.com 
address: 135.197.17.100:53 


socket(AF_INET, SOCK DGRAM, 17) 


address: 172.24.37.94:53 


socket(AF_INET, SOCK STREAM, 6), ai canonname = 
freebsd4.unpbook.com 
address: 135.197.17.100:53 


Socket(AF INET, SOCK DGRAM, 6) 
address: 172.24.37.94:53 


其 中 -f inet 选 项 指定 地 址 族 ，-c 表 示 返 回 规范 主机 名 ，-h 
freebsd4 指 定 主 机 名 ，-s domain 指定 服务 名 。 


常见 的 客户 情形 是 指定 地 址 族 、 套 接 字 类 型 (-t 选 项 ) 、 主 机 名 
和 服务 名 。 下 面 的 例子 展示 了 这 一 点 ， 其 中 主机 名 对 应 一 个 拥有 3 个 
IPv4 地 址 的 多 和 宿主 机 。 


freebsd % testga -f inet -t stream -h gateway.tuc.noao.edu -s 
daytime 


socket(AF_INET, SOCK_STREAM, 6) 


address: 140.252.108.1:13 


socket(AF_INET, SOCK_STREAM, 6) 
address: 140.252.1.4:13 


socket(AF_INET, SOCK_STREAM, 6) 
address: 140.252.104.1:13 


接着 指定 的 是 我 们 的 主机 aix， 它 有 一 个 AAAA 记 录 和 一 个 A 记 
孙 。 我 们 不 指定 地 址 族 ， 不 过 指定 一 个 服务 名 为 ftp， 该 服务 仅 在 
TCP 上 提供 。 
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freebsd % testga -h aix -s ftp -t stream 


socket(AF_INET6, SOCK STREAM, 6) 
address: [3ffe:b80:8d:2:204:acff :fe17:bf38]:21 


socket(AF INET, SOCK STREAM, 6) 
address: 192.168.42.2:21 


既然 没有 指定 地 址 族 ， 而 且 本 例子 运行 在 一 个 同时 支持 IPv4 和 
IPv6 的 主机 上 ， 因 此 有 2 个 地 址 结构 返回 : 一 个 是 IPv4 的 ， 一 个 是 IPv6 
的 。 


最 后 我 们 指定 AI_PASSIVE 标 志 (-p 选 项 ) ， 但 是 不 指定 地 址 
族 ， 也 不 指定 主机 名 〈 隐 含 使 用 通 配 地 址 ) ， 另 外 指定 端口 号 为 
8888， 套 接 字 类 型 为 SOCK_STREAM ° 


freebsd % testga -p -s 8888 -t stream 


socket(AF_INET6, SOCK_STREAM, 6) 
address: [::]:8888 


socket(AF_INET, SOCK_STREAM, 6) 
address: .0:8888 


本 例子 返回 2 个 结构 。 既 然 我 们 是 在 一 个 同时 文 持 IPv6 和 IPv4 的 主 
机 上 运行 本 例子 ， 又 没有 指定 地 址 族 ，getaddrinfo 返 回 的 是 IPv6 通 
配 地 址 和 IPv4 通 配 地 址 。IPv6 地 址 结构 早 于 IPv4 地 址 结构 返回 ， 因 为 


我 们 将 在 第 12 章 看 到 ， 双 栈 主机 上 的 IPv6 客 户 或 服务 器 既 能 与 IPv6 对 
端 通信 ， 也 能 与 IPv4 对 端 通信 。 


11.11 host servEX?2X 


访问 getaddrinfo 的 第 一 个 接口 函数 不 要 求 调用 者 分 配 并 填写 
一 个 hints 结 构 。 该 结构 中 我 们 感 兴趣 的 两 个 字段 (地 址 族 和 和 套 接 字 类 
型 ) 成 为 这 个 名 为 host_serv 的 接口 而 3 数 的 参数 。 


#include "unp.h" 


struct addrinfo *host_serv(const char *hostname, const char 
*service, 


int family, int socktype); 
返回 : 若 成 功 则 为 指向 addrinfo 结 构 的 指针 ， 若 


出 错 则 为 NULL 
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图 11-9 古 这 个 函数 的 源 代码 。 


'ibihost! serv.c 


1 include "ur.p. hi" 

2 struct addrinzc * 

3 hos- serv(const char *host. const char *serv, int family, irt socktype) 
at 

5 int nt 

6 struct addrinfo hints, *res; 

T bzero(&hints, sizes (struct addr-nfc]!; 

g hints.al tlace = AI CANONNANE;  /* always return canonical name */ 

9 hints.éi_femily - family: /* AP UNCPBC, AT INET, AF INEIG, etc. */ 
10 hints.ai sacktype = sock-ype: f* 6, SACK STREAM, SOCK DGSAM, ete. */ 
i it ( (n =» getacdrintec (host, serv, Saints, &res); i=- 9) 

12 return (NULL) ; 

13 raturni!res): /* return pointer to first on linked list */ 
14 : 


hibjhos! sem.c 


图 11-9 host servEÉNZX 


7-13 “该 函数 初始 化 一 个 hints 结 构 ， 调 用 getaddrinfo， 若 出 
错 则 返回 一 个 空 指 针 。 


我 们 将 在 图 16-17 中 调用 本 函数 ， 因 为 那 时 我 们 既 想 使 用 
getaddrinfo 获 取 主 机 和 服务 信息 ， 义 想 目 己 建立 连接 。 


11.12 tcp connect BAX 


现在 我 们 编写 使 用 getaddrinfo 处 理 TCP 客 户 和 服务 器 大 多 数 情 
形 的 两 个 函数 。 第 一 个 函数 即 tcp_connect 执 行 客 户 的 通常 步骤 : 
创建 一 个 TCP 套 接 字 并 连接 到 一 个 服务 器 。 


#include "unp.h" 


int tcp_connect(const char *hostname, const char *service); 


返回 : 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 


硅 出 错 则 不 返回 


UJ 
N 
(Ep) 


E] 11-107 VALER RR ° 


dbicp comeci.c 


1 #incluce "uup.li* 


2 int 
2 tcp cornect/cono- char *host, ccnot char vcerv) 


4 { 
€ int aockfd, n; 

€ struct a$Zdr:nfc hints, "rás, *ressave; 
8 

€ 


bzero(&hints, 3aiszeof(struct addrinto):; 
hints.a- fsnily = AP UNSPEC; 
hints. ai sccktype = SOCK STRESM; 


LO i^? ( (n - getaddrinfo!host, serv, ehints, &res)) !- 0) 

11 err_quit ("tep_connest crror for $5, io: to", 

12 hcst, serv, gai strerror(n!); 

13 resseve = res; 

14 do Í 

15 sockEd = socket (res->ai_family, res-»ai sockcype, res-»al protocol): 
1é if (sockfd < 0) 

17 continue: /* ignore this one */ 

18 it \connecctisockta, reo-sai addr, res-sa1 addricn) == 0) 

19 zreax, j* success */ 

20 Case isack Tr» J* ignore this one Pf 

22 ) while ( (res - res->ai next) !- NULL); 

22 iz (rec -= NULL) /* errno oct from zinzl connect() */ 


err sysi"tcp cornsct error for $s, $3*, host. serv'; 
24 f -peadiirinfotressave! ; 
return (soc«fd); 


libócp comece 


图 11-10 tcp_connect WAX: 执行 客户 的 通常 步骤 
调用 getaddrinfo 


7-13 调用 getaddrinfo 一 次 ， 指 定 地 址 族 为 AF_UNSPEC， 套 
接 字 类 型 为 SOCK_STREAM 。 


尝试 每 个 addrinfo 结 构 直至 成 功 或 到 达 链 表 尾 


14-25 尝试 getaddrinfo 返 回 的 每 个 IP 地 址 ， 针 对 它们 调用 
socket 和 connect。socket 调 用 失败 不 是 致命 的 错误 ， 因 为 如 果 返 
回 地 址 中 有 IPv6 地 址 而 主机 内 核 并 不 支持 IPv6， 这 种 失败 就 可 能 
°。 如果 connect 成 功 ，break 语 句 将 跳出 循环 。 天 则 党 试 完 所 有 地 

址 后 ， 循 环 也 终止 。freeaddrinfo 把 所 有 动态 分 配 的 内 存 空间 返 送 
回 系 统 。 
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一 旦 getaddrinfo 失 败 或 者 connect 调 用 没有 一 次 成 功 ， 本 函 
数 〈 以 及 将 在 以 下 各 节 中 讲解 的 getaddrinfo 的 其 他 简单 接口 画 
数 ) 将 终止 。 它 们 只 是 在 成 功 时 才 返 回 。 这 些 函 数 不 另 加 一 个 参数 难 
(SES EAI xxt E) o KARE ETER HKE 


int 
Tcp_connect(const char *host,const char *serv) 


return(tcp_connect(host, serv)); 


Reo, AT RRS BABE, RII REE H eee KAA 


xEtcp connect ° 


X IEEE alee T Té DUE XE DAS), BERI TTNISASEAI ooocd 
正 的 还 是 负 的 。 如 果 这 些 值 是 正 的 ， 那 么 我 们 可 以 在 getaddrinfo 
失败 时 返回 这 些 值 的 负 值 ， 然 而 我 们 还 得 返回 另外 某 个 负 值 以 表明 所 
有 结构 都 已 无 一 成 功 地 壬 试 完毕 。 


例子 : 时 间 获 取 客 户 程序 


图 11-11 是 把 图 1-5 中 的 时 间 获 取 客 户 程序 重新 编写 成 使 用 


tcp_connect 的 结 


nomes/davtimetcpelic 


1 &inc lich "ur p.h" 

2 int 

3 maintint argo, char **axqv, 

4 

5 int so-kfd, n; 

6 chaar recvline [MALINE + 1]; 

? sccklen t ler, 

8 struct sockaddr storage 48; 

a if (arge != 3; 

10 err cuit 

11 ("Lsage: daycimet-pc-i «hos-name/IPacdress» <service/port#>") ; 
12 scckfd = Tcp comiect (argpv[1], argv:2]!; 

13 len = sizeof (se); 

14 Getoeceornamc(cockEd, (SA *)&s5a, S.cn); 

15 print£i"connected to *s\n", Sock_ntcp_host/(SA *)&ss, len)'; 
16 wile | in = Readisackfd, vecvline, MAX:INE;) > 0) i 

17 recvline[n] = 2; /* rull terminate */ 

18 Fputs(recvline, stdout! ; 

19 } 

29 exitio): 


nomesidavtimelcpelic 


图 11-11 用 tcp_connect 重 新 编写 的 时 间 获 取 客 户 程序 


UJ 
co 


2 
命令 行 参 数 


9-11 我 们 需要 另 一 个 命令 行 参 数 来 指定 服务 名 或 端口 号 ， 它 多 
许 本 程序 连接 到 其 他 端口 。 


连接 到 服务 器 
12 ”本 客户 程序 的 所 有 套 接 字 代 码 现 由 tcp_connect 执 行 。 
显示 服务 器 地 址 


13-15 我 们 调用 getpeername 取 得 服务 器 的 协议 地 址 并 显示 
出 来 。 这 么 做 是 为 了 在 后 面 的 例子 中 验证 所 用 的 协议 。 


注意 ，tcp_connect 并 不 返回 内 部 connect 用 到 的 套 接 字 地 址 
结构 大 小 。 我 们 可 以 增设 一 个 指针 参数 来 返回 该 值 ， 然 而 本 函数 的 设 
计 目 标 之 一 却 是 相 比 getaddrinfo 减 少 参数 的 数目 。 于 是 我 们 改 用 


一 个 sockaddr_storage 套 接 字 地 址 结构 ， 它 大 得 足以 存放 系统 
持 的 任何 套 接 字 地 址 类 型 ， 又 能 满足 它们 的 对 齐 限制 。 


这 个 版 本 的 客户 程序 同时 支持 IPv4 和 IPv6， 而 图 1-5 中 的 版 本 只 
持 IPv4， 图 1-6 中 的 版 本 只 支持 IPv6。 你 还 应 该 对 比 这 个 新 版 本 和 图 
E.12 中 的 版 本 ， 后 者 编写 成 使 用 gethostbyname 和 getservbyname 
以 同时 支持 IPv4 和 IPV6 ° 


我 们 首先 指定 一 个 只 文 持 IPv4 的 主机 名 。 


freebsd % daytimetcpcli linux daytime 


connected to 206.168.112.96 
Sun Jul 27 23:06:24 2003 


我 们 接着 指定 一 个 同时 文 持 IPv4 和 IPv6 的 主机 和 名。 


freebsd % daytimetcpcli aix daytime 
connected to 3ffe:b80:8d:2:204:acff :fe17:bf38 


Sun Jul 27 23:17:13 2003 


本 例子 实际 使 用 IPv6 地 址 的 原因 在 于 : 该 主机 既 有 一 个 AAAA 记 
录 又 有 一 个 A 记 录 ， 而 tcp_connect 把 地 址 族 设 为 AF_UNSPEC， 根 
据 图 11-8， 首 先 搜索 的 是 AAAA 记 录 ， 然 后 搜索 的 是 A 记录 ， 
connect 顺 序 靠 前 的 IPv6 地 址 一 旦 成 功 ，tcp_connect 就 不 再 党 试 
connect 顺 序 靠 后 的 IPv4 地 址 。 


在 下 一 个 例子 中 ， 我 们 通过 指定 带 -4 后 级 的 主机 名 来 强制 使 用 
— 我 们 已 在 11.2 节 指出 这 是 我 们 对 于 只 有 A 记录 的 主机 名 的 约 
定 命 名 。 


freebsd % daytimetcpcli aix-4 daytime 


connected to 192.168.42.2 
Sun Jul 27 23:17:48 2003 
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1113 tcp listen 


下 一 个 函数 即 tcp_1isten 执 行 TCP 服 务 器 的 通常 步 又: 创建 一 
个 TCP 套 接 字 ， 给 它 捆绑 服务 器 的 众所周知 端口 ， 并 允许 接受 外 来 的 
连接 请 求 。 图 11-12 是 它 的 源 代码 。 


lik/top_iisten.c 

1 $include "unp.h" 
2 int 
3 top liscen(const caar *host, const char *%serv, scexlan t *acdr enp) 
4 1 
5 iat listenfd, 3; 
5 ccnst int on - 1; 
7 struc: addrints hints, *ree, *reesave; 
8 bzero(&hints, sizes (ətruct addrinfcl!; 

hints.ai_flags = AI FASSIVE; 
10 hinrs.ai_femity = OF UNS>EC; 

hintc.ai cocktype = SOCK STREAM; 
12 if ( (n = getacdrinfcthost. serv, &nints, &res}! !- 4) 
13 err suit("tep listen error for $s, xs: 4s", 
14 host, serv, gai ctrerror(nt); 
5 ressave - res, 
16 dc { 
1? listsnfd - 
18 EOcket(ree-»ai family, rez-»ai eocktype, ree->ai_protcesl} ; 
19 i= (listenfd < Ç) 
20 continue; /* erzu-, try next oum 4/ 
21 Setsockopt(lis-enfd, SOL SOCKET, SÓ REUSEADDS, &on, sizsof/cmn!); 
22 a= [bind(listenftd, res-»ai addr, res--si addrlen, =-= 0j 
23 xeak, /* success */ 
24 Close (1-sten£fd) ; /* bind error, close and t-y next one */ 
25 } while í (res = rss-sai next) !- MULL); 
a6 it (res -- NULL; /* erno trom final socket() cr bind!! */ 
27 err svs|"tcp listen error for $8, ts", host, serv); 
z8 Listenilisterfi, LISTENO!; 
79 if (add lenp} 
40 *acdrlanp = res--ai_acdrlen; {* return size of protoccl address */ 
31 fresadd-infoí(rsssave!; 
32 revcarni(listenfz,; 
33 : 

bcp listene 


图 11-12 tcp listenENZi: 执行 服务 器 的 通常 步 又 


#include "unp.h" 


int tcp_listen(const char *hostname, const char *service, 


socklen_t *addrlenp); 


返回 : 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 


若 出 错 则 不 返回 


调用 getaddrinfo 


8-15 ”初始 化 一 个 addrinfo 结 构 提 供 如 下 暗示 信息 : 
AI PASSIVE (因为 本 函数 供 服 务 器 使 用 ) 、AF_UNSPEC (地 址 
jk) 、SOCK_STREAM。 回 顾 图 11-8， 如 果 不 指定 主机 名 (对 于 想 捆 绑 
通 配 地 址 的 服务 器 通常 如 此 ) ，AI_PASSIVE 和 AF_UNSPEC 这 两 个 暗 
示 信 息 将 会 返回 两 个 套 接 字 地 址 结构 : 第 一 个 是 IPv6 的 ， 第 二 个 是 
IPv4 的 (假定 运行 在 一 个 双 栈 主机 上 ) 


创建 套 接 字 并 给 它 捆绑 地 址 


16-25 调用 socket 和 bind 函 数 。 如 果 任 何 一 个 调用 失败 ， 那 
就 忽略 当前 addrinfo 结 构 而 改 用 下 一 个 。 正 如 7.5 节 中 声明 的 那样 ， 
对 于 TCP 服 务 器 我 们 总 是 设置 SO_REUSEADDR 套 接 字 选项 。 


检查 是 否 失败 

26-27 ”如 果 针 对 每 个 地 址 结构 的 socket 调 用 和 bind 调 用 都 失 
败 ， 我 们 就 显示 一 个 出 错 消息 并 终止 。 就 像 前 一 节 的 tcp_connect 
函数 一 样 ， 本 函数 也 不 会 试图 返回 这 种 错误 。 

28 调用 listen 使 得 当前 套 接 字 变 成 一 个 监听 套 接 字 。 
返回 套 接 字 地 址 结构 的 大 小 

29-32 ”如果 addrienp 参 数 非 空 ， 我 们 束 通 过 这 个 指针 返回 协议 


地 址 的 大 小 。 这 个 大 小 允许 调用 者 在 通过 accept 获 取 客 户 的 协议 地 
址 时 分 配 一 个 套 接 字 地 址 结构 的 内 存 空 间 。 〈 另 见习 题 11.7。 ) 


11.13.1 例子 : 时 间 获 取 服 务 器 程序 


11-132 FE Al4-11 AY E RAR aR EE EET As Se 5a Hd 
tcp listenfü'Zó 


namiesidavtimetcpsrvd.c 


1 inclue "unp.h* 

4 fincluze <time.h> 

2 int 

4 main(irt argc, char **argv) 

s { 

€ int l-stenfd, conntz: 

7 sockler t len; 

£ char cuff [NAXLINE] ; 

9 time t ticks; 

10 struct socxaddr storage cliaddr; 

il i* (arme != 2) 

lz err quit ("usage: saytimetcpsrvl <strvicte or port#>"); 
13 list.enfd z 7 qp iSCEnINITI, argv;1], WMTL'; 

14 for db zz hl 

15 len = sizeof (cliasdr} ; 

16 cannfd = Accept(listenfd, (SA *j&cliadór, &len!; 

17 zrinzf("connectior Erom *sMn', Sock ntop(iSA *!&cliadzr, 1en2)!; 
14 tricka = ime: (NUT) ; 

19 anprintf (buff, sizecf(buff). "%.24s\r\n", ctimei&ticks)) ; 
20 Write ;conntd, butf, sge-rlen'butf;); 

21 C5 ase Sexo Tel! 7 

23 } 

22 } 


namesidaytimeiopsrvl.c 


图 11-13 用 tcp_1listen 重 新 编写 的 时 间 获 取 服 务 器 程序 ( 男 见 图 11-14) 
服务 名 或 端口 号 需 作为 命令 行 参数 

11-12 ”我们 需要 一 个 命令 行 参 数 来 指定 服务 名 或 端口 号 。 这 样 
更 便于 测试 本 服务 器 程序 ， 因 为 给 标准 daytime 服 务 器 捆绑 端口 13 需 要 
超级 用 户 特权 。 
创建 监听 套 接 字 

13 tcp_1isten 创 建 监听 套 接 字 。 作 为 第 三 个 参数 传递 给 该 函 
数 的 是 一 个 空 指针 ， 因 为 我 们 并 不 关心 当前 地 址 族 在 使 用 多 大 大 小 的 
地 址 结构 ， 我 们 将 使 用 sockaddr_storage。 


服务 器 循环 


14-22 accept 等 待 每 个 客户 连 授 。sock_ntop 用 于 输出 客户 
的 地 址 。 无 论 是 IPv4 还 是 IPv6， 该 函数 都 会 显示 了 地 址 和 端口 号 。 我 
们 可 以 使 用 getnameinfo 函 数 〈11.17 节 ) 党 试 获取 客户 主机 的 主机 
名 ， 不 过 这 将 涉及 DNS 中 的 PTR 记 录 查 询 ， 而 PTR 查 询 需 花 一 段 时 
间 ， 特 别 是 在 查询 失败 的 情形 下 。TCPv3 的 14.8 节 指出 : 在 一 个 繁忙 
的 Web 服务 器 主机 上 ， 与 之 建立 连接 的 所 有 客户 主机 中 没有 PTR 记 录 
的 几乎 占 259%。 既 然 不 想 让 服务 器 (特别 是 迭代 服务 器 就 为 PTR 查 
询 等 待 数秒 钟 ， 我 们 于 是 直接 显示 IP 地 址 和 端口 号 。 


IU 例子 :可 指定 协议 的 时 间 获 取 服 务 器 程 
了 


图 11-13 中 的 程序 存在 一 个 小 问题 ，tcp_listen 的 第 一 个 参数 是 
一 个 空 指 针 ， 而 且 由 tcp_1listen 内 部 指定 的 地 址 族 为 AF_UNSPEC， 
两 者 结合 可 能 导致 getaddrinfo 返 回 非 期 望 地 址 族 的 套 接 字 地 址 结 
构 。 举 例 来 说 ， 在 双 栈 主机 上 返回 的 第 一 个 套 接 字 地 址 结构 将 是 IPv6 
的 (图 11-8); ， 但 是 我 们 可 能 希望 该 服务 器 仅仅 处 理 IPv4。 


客户 程序 没有 这 样 的 问题 ， 因 为 客户 总 得 指定 一 个 卫 地 址 或 主机 
名 。 客 户 程序 通常 允许 用 户 作 为 命令 行 参 数 输入 它 。 我 们 于 是 有 机 会 
中 定 一 个 与 特定 类 型 的 了 P 地 址 关联 的 主机 名 (回顾 11.2 节 带 -4 或 -6 后 
组 的 主机 名 ) ， 或 者 要 么 指定 一 个 IPv4 的 点 分 十 进 制 数 串 (以 强制 使 
用 IPv4) ， 要 么 指定 一 个 IPv6 的 十 六 进 制 数 串 (以 强制 使 用 IPv6) ° 
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然而 有 一 个 简单 的 技巧 允许 我 们 强制 服务 器 使 用 某 个 给 定 的 协议 
或 为 IPvV4， 或 为 IPv6: 允许 用 户 作为 程序 的 命令 行 参数 输入 一 个 
IP 地 址 或 主机 名 ， 并 把 它 传递 给 getaddrinfo。 如 果 输 入 的 是 IP 地 
址 ， 那 么 IPv4 的 点 分 十 进 制 数 串 不 同 于 IPv6 的 十 六 进 制 数 串 。 对 于 
inet_pton 的 如 下 调用 将 如 下 所 示 地 成 功 或 失败 。 


".0", &foo); /* succeeds */ 
, "0::0",&foo); /* fails */ 


"0", &foo); /* fails */ 
inet pton(AF INET6, "0::0",&foo); /* succeeds */ 


AC, WARE BOTA ARS i ERIY BOA BES FSP A BRN, 


那么 要 是 键入 


% server 


FER EDL EUER 9 8 ATP v6, (he BEA 


% server .0 


则 显 式 指定 使 用 IPv4， 键 入 


则 显 式 指 定 使 用 IPv6 。 


图 11-14 是 我 们 的 时 间 获 取 服 务 器 程序 的 最 终 版 本 。 


1 include "uup.h* 

2 fincluie «time.hs 

i int 

4 main(irt argc, chaz **argv] 


= 

É int ltstenfd, connf; 

7 Socklen t len; 

6 char Duff [NAXLINE  ; 

5 Lime © tocka; 

Lọ struct sccxaddr_etorage  cliadcr; 

11 i= {arce -- 2) 

12 listenfd = Tcp listen (NULL, avrgv|:], &addrlen); 

13 else if (arg- == 3) 

14 l:stentd = Tep l1ieten(arqv|1], arqv[3], Sacdrien); 

15 else 

16 er r guit ("usage: Jayt imet pars? | chost> ] «service or porte" h; 
17 for z= jot 

18 len = cizeot (cliasdr} ; 

19 connfd = Accept (listenfd. (SA *'&cliadir, aleni; 

20 zrin-f("connectior from $5sXn', Suck atop( {SA *i&cl iad32r, len)); 
21 ticks = -ime(NULL); 

22 Snorintf (butt, żizect (butt), "8.24e\r\n", ctimei&ticks)); 
23 Write ‘connid, buff, s-rlen'/buff!), 

24 C^ ose footed) » 

25 ) 


— namesidaytiwelepsnva.c 


namesdaytimeicpsvvd.c 


图 11-14 ”使 用 tcp_1isten 的 协议 无 关 时 间 获 取 服 务 器 程序 


处 理 命令 行 参数 


11-16 与 图 11-13 相 比 唯一 的 改动 是 对 命令 行 参 数 的 处 理 ， 除 了 
和 
PEINE o 


我 们 首先 以 一 个 IPv4 套 接 字 启 动 服务 器 ， 然 后 从 运行 在 处 于 同一 
本 地 子 网 的 另外 两 个 主机 上 的 客户 向 该 服务 器 发 起 连接 。 


freebsd % daytimetcpsrv2 .0 9999 
connection from 192.168.42.2:32961 


connection from 192.168.42.3:1389 
接着 以 一 个 IPv6 套 接 字 局 动 服务 恬 。 


freebsd % daytimetcpsrv2 0::0 9999 
connection from [3ffe:b80:8d:2:204:acff :fe17:bf 38]:32964 
connection from [3ffe:b80:8d:2:230:65ff :fe15:caa7]:49601 


connection from [::ffff:192.168.42.2]:32967 
connection from [::ffff:192.168.42.3]:49602 


第 一 个 连接 来 自主 机 aix 并 使 用 IPv6， 第 二 个 连接 来 自主 机 
macosx 并 使 用 IPv6。 随 后 两 个 连接 同样 来 目 主机 aix 和 macosx， 不 
过 使 用 IPv4 而 不 是 IPv6。 这 是 因为 由 accept 返 回 的 这 两 个 客户 的 地 址 
都 是 IPv4 映 射 的 IPv6 地 址 。 


我 们 刚才 已 经 展示 : 运行 在 双 栈 主机 上 的 IPv6 服 务 器 既 能 够 处 理 
IPv4 客 户 ， 也 能 够 处 理 IPV6 客 户 。 正 如 12.2 厄 将 讨论 的 那样 ，IPVv4 客 户 
主机 的 地 址 作为 IPv4 映 射 的 IPv6 地 址 传递 给 IPv6 服 务 器 。 


11.14 udp clientwAX 


访问 getaddrinfo 的 较 简 单 接口 函数 对 于 UDP 情形 有 所 改变 ， 
即 客户 函数 演变 成 两 个 :; 一 个 是 本 节 讲 解 的 用 于 创建 未 连接 UDP 套 接 
字 的 udp_client 函 数 ， 另 一 个 是 下 一 下 讲解 的 用 于 创建 已 连接 UDP 
套 接 字 的 udp_connect 函 数 。 


#include "unp.h" 


int udp_client(const char *hostname, const char *service, 
struct sockaddr **saptr, socklen t *lenp); 


返回 : ee BOTA ARTE Be Ha 


回 
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本 函数 创建 一 个 未 连接 UDP 套 接 字 ， 并 返回 三 项 数据 。 首 先 ， 返 
回 值 是 该 套 接 字 的 描述 符 。 其 次 ，saptr 是 指向 某 个 (由 udp_client 
动态 分 配 的 ) 套 接 字 地 址 结构 的 (由 调用 者 自行 声明 的 ) 一 个 指针 的 
地 址 ， 本 函数 把 上 日 的 IP 地 址 和 端口 存放 在 这 个 结构 中 ， 用 于 稍 后 调用 
sendto。 最 后 ， 这 个 套 接 字 地 址 结构 的 大 小 在 jenp 指 向 的 变量 中 返 
回 。lenp 这 个 结尾 参数 不 能 是 一 个 空 指针 (而 tcp_1listen 人 允许 其 结 
尾 参数 是 一 个 空 指针 ) ， 因 为 任何 sendto 和 recvfrom 调 用 都 需要 知 
道 套 接 字 地 址 结构 的 长 度 。 


图 11-15 给 出 了 这 个 函数 的 源 代码 。 


— ied clieni.c 


1 include "unp.h" 

2 int 

3 udp client(const caar *host, sonst char *serv, SA **s5aptr, socklen t *lenp) 
4{ 

5 int so-kfd, n; 

6 s-ruac- addrinfs hints, *res, *ressave; 


bzero(&khints, &izesf (struct addrinfs)!; 


8 hints.ai_family = AP UNSPEC; 
9 hiuLs.ei sockLype s SOCK DGRAM: 
10 i£ ( (n = yetacdeinfe host, seru, &ilnts, &rws)] != 0) 
al err guit ("udp client error for $56, tc: $o”, 
12 host, serv, gai_strerrer({n}) i 
13 ressave = res; 
14 dc { 
15 sockfd - scckezizes-»ai fanily, res-»ai socktype. zes-»ai prococol): 
16 i= (so-kfd >s 4) 
17 break; /* success */ 
18 | while | (res = rae-»ai next) I= NULL); 
if (res zs NUI, /* errno set Crom final sock-t() */ 


err sya ("udp client error for ts, ts", hcs-, serv); 


21 *saptr = Malloc(res- sai_addrlen) ; 

22 mericpy (*wapir, ces ei adi le res-maj adürlisen): 
23 *lenp - res->ai addr len; 

24 fresadd-info(rsssave!; 

35 raturnisockfd;,; 

26 . 


Jibinde: elieni.c 


图 11-15 udp client)ExZ&. 创建 一 个 未 连接 UDP 套 接 字 


getaddrinfo 用 于 转换 hostname 和 service 参 数 。socket 用 于 创 
建 一 个 数据 报 套 接 字 。malloc 用 于 分 配 一 个 套 接 字 地 址 结构 的 内 存 
空间 ， 并 由 memcpy 把 对 应 所 创建 套 接 字 的 地 址 结构 复制 到 这 个 内 存 
空间 中 。 


例子 : 协议 无 关 时 间 获 取 客 户 程序 


我 们 现在 把 图 11-11 中 的 时 间 获 取 客 户 程序 重新 编写 成 改 用 UDP 和 
udp_client 函 数 。 图 11-16 给 出 了 这 个 协议 无 关 程 序 的 源 代码 。 
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manes/daytimeudeclil.c 


1 tiucluce "uup.h* 

2 int 

3 main(irt args, char **argv) 

4 | 

5 int &cckfü, n; 

é char rscviine [MAXLINE + i]; 

7 socklen t salen; 

6 struct sockaddr *sa; 

a i= (arze != 3) 

10 arr quit 

11 (*usagc: daytinzudpzlil «hostnzmz/IPaddrcos» «ocrvicc/pcr-$»'!; 
12 sockfd = Udp clien-largv[1], argví2], (void **) Ssa, &salen); 

13 p-zintf(*sending to s\n", Sock ntop host(se, salen)): 

14 sendto(soÓc«f3, "*, 1, 0, fa, Salen); /* send i-byte datagram */ 
15 n = Recvfren(sacckfd, recvlire, MAXLINE, C. NULL, NULL); 

1€ reczline[n] = '\0'; /* noll terminate */ 

17 Fouts (reovline, stdnut} >; 

it exit (0) ; 

19 ] 


ncmesidavtimeudpbclil.c 


图 11-16 ”使 用 udp_client 的 UDP 时 间 获 取 客 户 程序 


12-17 我 们 调用 udp_client 函 数 ， 然 后 显示 将 癌 其 发 送 UDP 
数据 报 的 服务 器 的 IP 地 址 和 端口 号 。 发 送 一 个 1 字 节 的 数据 报 后 读 取 并 
显示 应 答 数据 报 。 


实际 上 我 们 只 需要 发 送 一 个 0 字 节 的 UDP 数据 报 ， 因 为 来 自 标 准 
daytime 服 务 器 的 响应 只 靠 数据 报 的 到 达 触 发 ， 而 与 其 长 度 或 内 容 无 
关 。 然 而 许多 SVR4 实 现 却 不 允许 0 长 度 的 UDP 数据 报 。 


我 们 首先 指定 拥有 一 个 AAAA 记 录 和 一 个 A 记录 的 某 个 主机 名 运 
行 本 客户 程序 。 既 然 由 getaddrinfo 首 先 返回 的 是 对 应 AAAA 记 录 的 
结构 ， 所 创建 的 是 一 个 IPv6 套 接 字 。 


freebsd % daytimeudpcli1 aix daytime 
sending to 3ffe:b80:8d:2:204:acff:fe17:bf38 


Sun Jul 27 23:21:12 2003 


我 们 接着 指定 同一 个 主机 的 点 分 十 进 制 数 串 地 址 ， 结 果 创 建 的 是 
一 个 IPv4 套 接 字 。 


freebsd % daytimeudpclii1 192.168.42.2 daytime 
sending to 192.168.42.2 


Sun Jul 27 23:21:40 2003 
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11.15 udp connect ESZ 


udp_connect 函 数 创 建 一 个 已 连接 UDP 套 接 字 。 


#include "unp.h" 


int udp connect(const char *hostname, const char *service); 


返回 : 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 


若 出 错 则 不 返回 


有 了 已 连接 UDP 套 接 字 后 ，udp_client 必 需 的 结尾 两 个 参数 就 
不 再 需要 了 。 调 用 者 可 改 用 write 代替 sendto， 因 此 本 函数 不 必 返 
回 一 个 套 接 字 地 址 结构 及 其 长 度 。 


图 11-17 是 本 函数 的 源 代码 。 


inc comeci.c 


1 $include "ur:p. h" 

2 int 

3 udp_connect (const char *hoot, const cnar *oerv) 

4: 

5 int sorkfd, n; 

6 Struct addrinfs hints, *res, *réesave; 

7 bzero(&hints, sizeof (struct addr:nfcl!; 

8 hints.ai_family = AF UNSPEC; 

9 hinrs.ai_sockrype s SOCF DGRAM: 

10 it ( (n - getazdr-nfc;host, serv, Saints, &res), !- 9) 

1i &zr quit("udp connect errcr for $5, $5; is", 

12 host, serv, gai strerrcr(nl): 

13 ressayve = rec: 

14 de { 

15 sockfd = scckecices-»5i fanily, res-»ai socktype. -es-»5i pro-cocol); 
16 i7 (sockfd < 01 

17 continue; /* ignore this one */ 

18 iz (connect|cockzd, rse->ar_addr, rec->ai_addrlen) == 0) 
15 sak /* success */ 

20 Close (sockEd! ; /* ignore this zne */ 

al } while | (ree - ras->ai next) !- NULL); 

22 iE (res == NULL; /* errno ect Erom final connzct;) */ 
23 er sys["udp connect error for ts, $s", host, servi; 

24 freeads infolressaue) ; 

25 raturn isock2d} ; 

36 ， 


libudp conneci.c 
图 11-17 udp_connect WA: 创建 一 个 已 连接 UDP 套 接 字 


本 函数 几乎 等 同 于 tcp_connect。 两 者 的 差别 之 一 是 UDP 套 接 
字 上 的 connect 调 用 不 会 发 送 任何 东西 到 对 端 。 如 果 存 在 错误 ( 壁 如 
对 端 不 可 达 或 所 指定 端口 上 没有 服务 器 ) ， 调 用 者 就 得 等 到 向 对 端 发 
送 一 个 数据 报 之 后 才能 发 现 。 
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11.16 udp serverERZ 


用 于 简化 访问 getaddrinfo 的 最 后 一 个 UDP 接口 函数 是 
udp_server ° 


#include "unp.h" 


int udp_server(const char *hostname, const char *service, 
socklen_t *lenptr); 


返回 : 若 成 功 则 为 未 连接 套 接 字 描 述 符 ， 


若 出 错 则 不 返回 


本 函数 的 参数 与 tcp_1isten 一 样 ， 有 一 个 可 选 的 hostname 和 一 
个 必需 的 service 〈 从 而 可 捆绑 其 端口 号 ) ， 以 及 一 个 可 选 的 指向 某 个 
变量 的 指针 ， 用 于 返回 套 接 字 地 址 结构 的 大 小 。 


图 11-18 给 出 本 函数 的 源 代码 。 


lib/udp_rerver.c 


1 #include "uap.h" 


2 int 
3 udp server (const char *bost, Congo char *seru, sw cklen t *acdr? eng) 
a] 
5 int sockfd, n; 
6 struct addrinf¢ hints, *res, *ressave; 
7 bzero(&hints, s-zeof(struct addrinfe)!; 
8 hinzo.2i zla38 = AI_DASSIVE; 
9 hincs.ai_family = AP UNSPRC; 
10 hinte.ai sccktypa = SOCK DGRAM; 
1i if ( (r = ceraddrinfo(host, serv, ehints, &res); !- 0) 
12 err quit('udp ssrver error for $s, $3: $3°, 
13 hcst, serv, cai strerraorín!): 
14 rescave = rec, 
15 do { 
16 sockEd = socket(res--ai family, res-»ai sockzype. »€8-»ai prococol): 
17 if ;sockfd < o! 
18 continue; /* ezror - try next one */ 
19 if ;z-nd(sockfd, res->ai addr, -eg-»a- addrlen! == t; 
20 break; /* success */ 
Cisse [sockfd! ; /* bind error - close anc try next one */ 
22 ) while ( (res = res-»ai rext) != NULL); 
23 if (res zz MILL) /* e-rna from final socket () or wordi) */ 
24 err svs'/"udp server errcr for ts, ts", hes=, serv); 


if (adérlenp) 


26 *addriens - zes-»&l addrlen; /* return size of prctoccl address */ 
27 treeadcrinto(rescave! ; 

28 return(sockf3); 

29 ] 


lib/udp server.c 
图 11-18 udp server/ERZi: 为 UDP 服务 器 创建 一 个 未 连接 套 接 字 
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除了 没有 调用 listen 外 ， 本 函数 几乎 等 同 于 tcp_listen。 我 
们 把 地 址 族 设置 成 AF_UNSPEC， 不 过 调用 者 可 以 使 用 我 们 随 图 11-14 
讲解 的 同样 技巧 来 强制 使 用 某 个 特定 协议 (IPv4 或 IPv6) ° 


对 于 UDP 套 接 字 我 们 不 设置 SO_REUSEADDR 选 项 ， 因 为 正如 7.5 节 
所 述 ， 本 套 接 字 选 项 允许 在 支持 多 播 的 主机 上 把 同一 个 UDP 端口 捆绑 


到 多 个 套 接 字 上 。 PEYRUDPE REF IRA TCPHTIME_WAITIAAHI AR 
物 ， 启 动 服务 器 时 就 没有 设置 这 个 套 接 字 选 项 的 必要 。 


例子 : 协议 无 关 时 间 获 取 服 务 器 程序 


图 11-19 给 出 修改 自 图 11-14， 改 用 UDP 的 时 间 获 取 服 务 器 程序 。 


ramnes/daviinendpsrv2.c 


1 @include "ur.p. hi" 

2 finclude -time.nh> 

3 -nt 

4 maintin=c argc, char **aray! 

5 

6 int sockfd; 

7 o3:2c t n; 

8 char buff [MAXLINE] ; 

3 tins : ticks; 

10 eceklen t ler; 

11 struc- sockacdr storage  c--iaddr; 

12 if (argc == 2! 

13 sockfd = Udp server(WULL, argv[1], NULL); 

14 eles if !argc == 3) 

5 sockfd = Udp_serveriargv 1]. argvi2]. NULL); 

16 elsa 

ET err quit ("usage: daytimeudpsry [ «host» ] «service or parto"); 
18 for (32 3) (f 

19 ler = sizecf (cliaddr' ; 

20 n m Recvf roii(sockfd, buff, MAXLTNE, P, [SA *)&cliedór, Sen); 
41 print?(*daragram from %s\n", Sock ntop(;sA *)&cliadcr, len)); 
aR ticks = tire {NUILL} : 

23 snprintf(buff, sizeof (buff), "$.24s'r^n*, ctime'&ticksl): 

FL S$erdto(scc«fd, buff, strlen(baff), 0, (Sh *)&cliaddr, Len); 
as } 

26 ， 


namesdaylimeudpsrvi.c 


图 11-19 ”协议 无 关 的 UDP 时 间 获 取 服 务 器 程序 


UJ 
UJ 
co 


11.17. getnameinfow 


getnameinfo 是 getaddrinfo 的 互补 阔 数 ， 它 以 一 个 套 接 字 地 
址 为 参数 ， 返 回 描述 其 中 的 主机 的 一 个 字符 串 和 摘 述 其 中 的 服务 的 另 
一 个 字符 串 。 本 函数 以 协议 无 天 的 方式 提供 这 些 信息 ， 也 就 是 说 ， 调 
用 者 不 必 关 心 存放 在 套 接 字 地 址 结构 中 的 协议 地 址 的 类 型 ， 因 为 这 些 
细 慷 由 本 函数 自行 处 理 。 


#include <netdb.h> 


int getnameinfo(const struct sockaddr \*sockaddr, socklen_t 
addrlen, 

char N*host, socklen t hostlen, 

char N*serv, socklen t servlen, int flags); 


返回 : ARIMA, 7 


图 11-7) 


sockaddr 指 问 一 个 套 接 字 地 址 结构 ， 其 中 包含 竺 转换 成 直观 可 读 
的 字符 串 的 协议 地 址 ，addrlen 是 这 个 结构 的 长 度 。 该 结构 及 其 长 度 通 
常 由 accept、recvfrom、getsockname 或 getpeername 返 回 。 


待 返回 的 2 个 直观 可 读 字 符 串 由 调用 者 预先 分 配 存 储 空 间 ，host 利 
hostlen 指 定 主 机 字符 串 ，serv 和 servlen 指 定 服务 字 符 串 。 如 果 调 用 者 不 
想 返 回 主 机 字符 串 ， 那 就 指定 hostlen 为 0° 同样 ， 把 servlen 指 定 为 0 就 
是 不 想 返 回 服务 字符 串 。 


sock_ntop 和 getnameinfo 的 差别 在 于 ， 前 者 不 涉及 DNS， 只 
返回 IP 地 址 和 端口 号 的 一 个 可 显示 版 本 ; 后 者 通常 尝试 获取 主机 和 服 
务 的 名 字 。 


图 11-20 中 给 出 了 6 个 可 指定 的 标志 ， 用 于 改变 getnameinfo 的 操 
作 。 


NI DGRAM 数据 报 服务 
NI NAMEREQD 若 不 能 从 地 址 解析 出 名 字 则 返回 错误 


NI NOFQDN 只 返回 FQDN 的 主 a 名 部 分 
NI NUMERICHOST 以 数 串 格 式 返 回 主机 字符 串 
NI NUMERICSCOPE 以 数 串 格式 返回 范围 标识 字符 串 
NI NUMERICSERV 以 数 串 格式 返回 服务 字符 串 


图 11-20 getnameinfo 的 标志 值 


当知 道 处 理 的 是 数据 报 套 接 字 时 ， 调 用 者 应 设置 NI_DGRAM 标 

因为 在 套 接 字 地 址 结构 中 给 出 的 仅仅 是 IP 地 址 和 端口 号 ， 
P aU (TCP 或 UDP) 。 有 若干 个 端口 
号 在 TCP 上 用 于 一 个 服务 ， 在 UDP 上 却 用 于 截然 不 同 的 另 一 个 服务 。 
端口 514 就 是 这 样 的 一 个 例子 ， 它 在 TCP 上 提供 rsh 服 务 ， 在 UDP 上 提 
供 syslog 服 务 。 
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如 果 无 法 使 用 DNS 反 癌 解 析出 主机 名 ，NI_NAMEREQD 标 志 将 导 
致 返回 一 个 错误 。 需 要 把 客户 的 耳 地 址 映射 成 主机 名 的 那些 服务 器 可 
以 使 用 这 个 特性 。 这 些 服 务 需 随后 以 这 样 返 回 的 主机 名 调用 
gethostbyname， 以 便 验 证 gethostbyname 返 回 的 某 个 地 址 就 是 
早先 调用 getnameinfo 指 定 的 套 接 字 地 址 结构 中 的 地 址 。 


NI_NOFQDN 标 志 导 致 返回 的 主机 名 第 一 个 点 号 之 后 的 内 容 被 截 
去 。 举 例 来 说 ， 假 设 套 接 字 地 址 结构 中 的 IP 地 址 为 192.168.42.2， 那 么 
不 设置 本 标志 的 gethostbyaddr 返 回 的 主机 名 为 
aix.Unpbook.com， 而 设置 本 标志 的 gethostbyaddr 返 回 的 主机 
名 为 aix。 


NI_NUMERICHOST 标 志 告 知 getnameinfo 不 要 调用 DNS (因为 
调用 DNS 可 能 耗 时 ) ， 而 是 以 数值 表达 格式 以 字符 串 的 形式 返回 IP 地 
tk (可 能 通过 调用 inet_ntop 实 现 ) 。 类 似 地 ，NI_NUMERICSERV 


标志 指定 以 十 进 制 数 格式 作为 字符 串 返 回 端口 号 ， 以 代替 查找 服务 
名 ; NI_NUMERICSCOPE 标 志 指 定 以 数值 格式 作为 字符 串 返 回 范围 标 
识 ， 以 代替 其 名 字 。 既 然 客 户 的 端口 号 通常 没有 关联 的 服务 名 T 
们 是 临时 的 端口 ， 服 务 器 通常 应 该 设置 NI_NUMERICSERV 标 志 。 


对 于 这 些 标 志 有 意义 的 组 合 〈 例 如 NI_DGRAM 和 
NI NUMERICHOST) ， 可 以 把 其 中 各 个 标志 逻辑 或 在 一 起 。 
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11.37 BJgethostbyname ERI eH T -ART AREA GR 
问题 : 它 不 是 可 重 入 的 (re-entrant) 。 到 第 26 章 讨论 线程 时 我 们 会 普 
人 过 地 过 到 这 个 问题 ， 不 过 在 涉及 线程 概念 之 前 探讨 本 问题 并 查看 其 解 
决 办 法 也 是 必要 的 。 


我 们 首先 查看 该 函数 的 工作 机 理 。 如 果 阅 读 其 源 代码 (这 一 点 易 
于 做 到 ， 因 为 整个 BIND 版 本 的 源 代码 都 是 公开 可 得 的 ) ， 我 们 会 发 现 
一 个 包含 gethostbyname 和 gethostbyaddr 的 文件 ， 该 文件 的 内 
容 大 体 如 下 : 


static struct hostent host; /* result stored here */ 


struct hostent * 
gethostbyname(const char *hostname) 


{ 
} 


struct hostent * 
gethostbyname2(const char *hostname, int family) 


return(gethostbyname2(hostname, family)); 


/* call DNS functions for A or AAAA query */ 
/* fill in host structure */ 


return(&host); 
j 


struct hostent * 
gethostbyaddr(const char *addr, socklen t len, int family) 


/* call DNS functions for PTR query in in-addr.arpa domain */ 


/* fill in host structure */ 


return(&host); 
} 


QJ 
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我 们 突出 显示 结果 结构 的 static 存 储 类 别 限 定 词 ， 意 在 表明 它 
是 问题 的 关键 。 该 文件 中 定义 的 3 个 函数 共用 同一 个 host 变 量 这 一 事 
实 还 引入 了 我 们 将 在 习题 11.1 中 讨论 的 另 一 个 问题 。 (其 中 
gethostbyname2 函 数 是 在 BIND 中 为 支持 IPv6 而 引入 的 。 它 现 已 被 
淘汰 ， 详 见 11.20 节 。 当 调用 gethostbyname 时 ， 我 们 将 忽略 它 实 际 
上 调用 gethostbyname2 这 一 事实 ， 因 为 如 此 忽略 并 不 影响 本 讨 
论 。) 


在 一 个 普通 的 UNIX 进 程 中 发 生 重 入 问题 的 条 件 是 : 从 它 的 主 控制 
流 中 和 某 个 信号 处 理 函 数 中 同时 调用 gethostbyname 或 
gethostbyaddr。 当 这 个 调用 信号 处 理 函 数 被 调用 时 ( 壁 如 说 它 是 
一 个 每 秒 钟 产生 一 次 的 SIGALRM 信 和 号) ， 该 进程 的 主 控制 流 被 暂停 以 
执行 信号 处 理 函 数 。 考 虑 如 下 例子 : 


main() 


struct hostent *hptr; 
Signal(SIGALRM, sig alrm); 


hptr - gethostbyname( ... 


j 


void 
sig alrm(int signo) 


struct hostent *hptr; 


hptr - gethostbyname( ... 


j 


如 果 主 控制 流 被 暂停 时 正 处 于 执行 gethostbyname 期 间 (240 
说 该 函数 已 经 填写 好 host 变 量 并 即将 返回 ) ， 而 且 信 号 处 理 函 数 随后 
调用 gethostbyname， 那 么 该 host 变 量 将 被 重用 ， 因 为 该 进程 中 只 
存在 该 变量 的 单个 副本 。 这 么 一 来 ， 原先 由 主 控制 流 计算 出 的 值 被 重 
写成 了 由 当前 信和 号 处 理 函 数 调 用 计算 出 的 值 。 


RESENA AS ER a) B AXE Pine t_XXX EK 


AA. ME T8 ERREUR EE EA PU Ls ° 


Ala SRA, gethostbyname » gethostbyaddr ^ 
getservbyname 和 getservbyport 这 4 个 函数 是 不 可 重 入 的 ， 
因为 它们 都 返回 指向 同一 个 静态 结构 的 指针 。 
支持 线程 的 一 些 实现 (例如 Solaris 2.x) 同时 提供 这 4 个 函数 的 可 
重 入 版 本 ， 它 们 的 名 字 以 _r 结 尾 ， 我 们 将 在 下 一 和 介绍 它们 。 
支持 线程 的 男 一 些 实现 (例如 HP-UX 10.30 及 以 后 版 本 ) 使 用 线 
程 特定 数据 (26.577) 提供 这 些 函 数 的 可 重 入 版 本 。 
inet_pton 和 inet_ntop 总 是 可 重 入 的 。 

因 历史 原因 ，inet_ntoa 是 不 可 重 入 的 ， 不 过 文 持 线程 的 一 些 实 
现 提 供 了 使 用 线程 特定 数据 的 可 重 入 版 本 。 
getaddrinfo 可 重 入 的 前 提 是 由 它 调 用 的 函数 都 可 重 入 ， 这 束 
是 说 ， 它 应 该 调用 可 重 入 版 本 的 gethostbyname (以 解析 主机 
名 ) 和 getservbyname (以 解析 服务 名 ) 。 本 函数 返回 的 结果 
全 部 存放 在 动态 分 配 内 存 空间 的 原因 之 一 就 是 允许 它 可 重 入 。 
getnameinfo 可 重 入 的 前 提 是 由 它 调 用 的 函数 都 可 重 入 ， 这 束 
是 说 ， 它 应 该 调用 可 重 入 版 本 的 gethostbyaddr (LA I AENT 
主机 名 ) 和 getservbyport (以 反 向 解析 服务 名 ) 。 它 的 2 个 结 
果 字 符 串 (分 别 为 主机 名 和 服务 名 ) 由 调用 者 分 配 存 储 空间 ， 从 
而 允许 它 可 重 入 。 


errno 变 量 存 在 类 似 的 问题 。 这 个 整 型 变量 历来 每 个 进程 各 有 一 


个 副本 。 如 有 果 一 个 进程 执行 的 某 个 系统 调用 返回 一 个 错误 ， 该 进程 的 
这 个 变量 中 就 被 存 入 一 个 整数 错误 码 。 举 例 来 襄 ， 当 调用 标准 C 函 数 
库 中 名 为 close 的 函数 时 ， 进 程 可 能 执行 类 似 如 下 的 伪 代 码 : 


把 系统 调用 的 参数 (一 个 整数 接 述 符 ) 置 于 一 个 寄存 器 
把 一 个 值 置 于 男 一 个 寄存 器， 以 指出 得 调用 的 是 close 系 统 调 


FA; 

激活 该 系统 调用 〈 用 一 条 特殊 指令 切换 到 内 核 态 ) ; 
测试 一 个 寄存 器 的 值 以 判定 是 否 发 生 过 某 个 错误 ; 
若 没 有 错误 则 执行 return(0); 

否则 把 另外 某 个 寄存 器 的 值 存 入 errno; 


。 执 行 return(-1)。 
首先 应 该 注意 若 没 有 任何 错误 发 生 则 errno 的 值 不 会 改变 。 
此 ， 除 非 知道 发 生 了 一 个 错误 《通常 由 函数 调用 返回 -1 指示 ) ， 否 则 
不 应 该 查看 errno 的 值 。 
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假设 一 个 程序 先 测 试 close 函 数 的 返回 值 ， 判 是 发 生 了 一 个 错 谍 
后 再 显示 errno 的 值 ， 其 代码 如 下 : 


if (close(fd) < 0) { 
fprintf(stderr, "close error, errno = %d\n", errno); 
exit(1); 


} 


从 close 系 统 调 用 返回 时 把 错误 码 存 入 errno 到 稍 后 由 程序 显示 
errno 的 值 之 间 存 在 一 个 小 的 时 间 窗 口 ， 期 间 同 一 个 进程 内 的 男 一 个 
执行 线程 (例如 一 个 信号 处 理 函 数 的 某 次 调用 ) 可 能 改变 了 errno 的 
值 。 举 例 来 说 ， 如 果 这 个 信号 处 理 函 数 被 调用 时 主 控制 流 处 于 close 
和 fprintf 之 间 ， 而 且 这 个 信号 处 理 函 数 调用 的 另外 某 个 系统 调用 

(譬如 write) 也 返回 一 个 错误， 那么 由 write 系统 调用 存放 的 
errno 值 将 覆 写 由 close 系 统 调用 存放 的 errno 值 。 


就 信号 处 理 函 数 考虑 这 两 个 问题 ， 其 中 gethostbyname 问 题 
(返回 一 个 指向 某 个 静态 变量 的 指针 ) 的 解决 办 法 之 一 是 在 信号 处 理 
函数 中 不 调用 任何 不 可 重 入 的 函数 ，errno 问 题 (其 值 可 被 信号 处 理 
函数 改变 的 单个 全 局 变量 ) 可 通过 把 信号 处 理 钞 数 编写 成 预先 保存 并 
事后 恢复 errno 的 值 加 以 避免 ， 其 代码 如 下 : 


void 
sig alrm(int signo) 


int errno save; 


errno save - errno; /* save its value on entry */ 
if (write( ... ) !- nbytes) 
fprintf(stderr, "write error, errno = %d\n", errno); 
errno = errno_save; /* restore its value on return */ 


在 这 段 例子 代码 中 ， 我 们 还 从 信号 处 理 函 数 中 调用 了 fprintf 这 
个 标准 IO 函数 。 它 引入 了 另 一 个 重 入 问题 ， 因 为 许多 版 本 的 标准 IO 
se REE EE A 
YEVOEK RY o 


我 们 将 在 第 26 草 中 重 所 这 个 重 入 问题 ， 并 得 看 线程 如 何 处 理 
errno 变 量 的 问题 。 下 一 市 介绍 主机 名 转换 函数 的 一 些 可 重 入 版 本 。 


11.19 gethostbyname_r#ll 
gethostbyaddr_r žit 


有 两 种 方法 可 以 把 诸如 gethostbyname 之 类 不 可 重 入 的 函数 改 
为 可 重 入 函数 。 
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(1) 把 由 不 可 重 入 函数 填写 并 返回 静态 结构 的 做 法 改 为 由 调用 者 分 
配 再 由 可 重 入 函数 填写 结构 。 这 是 把 不 可 重 入 的 gethostbyname 改 
为 可 重 入 的 gethostbyname_r 所 用 的 技巧 。 但 这 种 方法 比较 复杂 ， 
因为 不 仅 调用 者 必须 提供 有 竺 填写 的 hostent 结 构 ， 而 且 该 结构 还 指 
向 其 他 信息 : 规范 名 字 、 别 名 指针 数组 、 各 个 别名 字符 串 、 地 址 指针 
数组 以 及 各 个 地 址 (参见 图 11-2) 。 调 用 者 必须 提供 一 个 足以 存放 这 
些 额 外 信息 的 大 缓冲 区 以 及 一 个 待 填写 的 hostent 结 构 ， 所 填写 的 内 
容 包括 多 个 指向 这 个 大 缓冲 区 的 指针 。 这 么 一 来 该 函数 至 少 得 增设 3 个 
参数 : 指向 竺 填写 的 hostent 结 构 的 一 个 指针 、 指 回 存 放 所 有 其 他 信 
息 所 用 缓冲 区 的 一 个 指针 以 及 该 缓冲 区 的 大 小 。 作 为 第 四 个 额外 参 
数 ， 指 向 用 于 存放 错误 码 的 某 个 整数 变量 的 一 个 指针 也 是 必要 的 ， 
为 不 能 再 用 全 局 整数 变量 h _errno。 (全 局 变量 h_errno3 引 起 与 
errno 所 引起 的 相同 的 重 入 问题 。) 


detnameinfo 和 inet_ntop 也 使 用 这 种 方法 。 


(2) 由 可 重 入 函数 调用 malloc 以 动态 分 配 内 存 空间 。 这 是 
getaddrinfo 使 用 的 技巧 。 这 种 方法 的 问题 是 调用 该 琅 数 的 应 用 进 
程 必须 调用 freeaddrinfo 释 放 动 态 分 配 的 内 存 空 间 。 如 果 不 这 么 做 
就 会 导致 内 存 空间 泄漏 (memory leak) : 进程 每 调用 一 次 动态 分 配 内 
存 空 间 的 男 数 ， 所 用 内 存量 惑 相 应 增长 。 如 果 进 程 长 时 间 运 行 (网 络 
服务 器 的 公共 特性 之 一 ) ， 那 么 内 存 耗 用 量 驶 随时 间 不 断 增加 。 


现在 讨论 Solaris 2.x 用 于 从 名 字 到 地 址 和 从 地 址 到 名 字 进 行 解析 的 
可 重 入 函数 。 


#include <netdb.h> 


struct hostent *gethostbyname_r(const char *hostname, 
struct hostent *result, 
char *buf, int buflen, int 
*h errnop); 


struct hostent *gethostbyaddr r(const char *addr, int len, int 
type, 


struct hostent *result, 
char *buf, int buflen, int 


Pj. 若 成 功 则 为 非 空 指针 ， 


*h errnop); 


若 出 错 则 为 NULL 


每 个 函数 都 需要 4 个 额外 的 参数 。 其 中 result 人 参数 指 癌 由 调用 者 分 
配 并 由 被 调用 函数 填写 的 hostent 结 构 。 成 功 返 回 时 本 指针 同时 作为 
函数 的 返回 值 。 


bu 有 参数 指向 由 调用 者 分 配 且 大 小 为 bufpen 的 缓冲 区 。 该 缓冲 区 用 
于 存放 规范 主机 名 、 别 名 指针 数组 、 各 个 别名 字符 串 、 地 址 指针 数组 
以 及 各 个 实际 地 址 。 由 result 指 向 的 hostent 结 构 中 的 所 有 指针 都 指向 该 
缓冲 区 内 部 。 那 这 个 缓冲 区 要 有 多 大 才 行 呢 ? 不 六 的 是 ， 束 该 缓冲 区 
的 大 小 而 言 ， 大 多 数 手 册页 面 只 是 含糊 地 说 “该 缓冲 区 必须 大 得 足以 存 
放 与 hostent 结 构 关 联 的 所 有 数据 "”。gethostbyname 当 前 的 实现 最 
多 能 够 返回 35 个 别名 指针 和 35 个 地 址 指针 ， 并 内 部 使 用 一 个 8192 字 节 
d 区 存放 这 些 别名 和 地 址 。 因 此 大 小 为 8192 字 节 的 缓冲 区 应 该 足 


如 果 出 错 ， 错 误 码 就 通过 h_errnop 指 针 而 不 是 全 局 变量 h_errno 
返回 。 
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不 笠 的 是 ， 重 入 问题 比 它 表 面 看 来 更 要 三 重 。 首 先 ， 关 于 
gethostbyname 和 gethost- byaddr 的 重 入 问题 无 标准 可 循 。 
POSIX 规 范 声明 这 两 个 函数 不 必 是 可 重 入 的 。Unix 98 只 说 这 两 个 函数 
不 必 是 线程 安全 的 。 


其 次 ， 关 于 _r 画 数 也 没有 标准 可 循 。 本 节 〈 出 于 作为 例子 目的 ) 
展示 的 那 两 个 _r 芳 数 由 Solaris 2.x t fe ° Linuxe titel rž, (E 
函数 会 返回 一 个 hostent 结 构 ， 该 结构 是 使 用 作为 倒数 第 二 个 参数 的 
值 一 结果 参数 返回 的 。 寿 查找 成 功 ， 则 返回 函数 和 h_errno 参 数 的 
值 。Digital Unix 4.0 和 HP-UX 10.30 同 样 提 供 这 两 个 函数 的 _r 版 本 ， 只 
是 参数 不 同 而 已 。 它 们 的 gethostbyname_r 画 数 有 与 Solaris 版 本 同 
样 的 前 2 个 参数 ， 不 过 Solaris 版 本 的 后 3 个 参数 被 前 者 组 合成 一 个 新 的 
hostent_data 结 构 〈 它 必须 由 调用 者 分 配 存储 空间 ) ， 指 向 该 结构 
的 一 个 指针 构成 本 函数 的 第 三 个 兼 最 后 一 个 参数 。 通 过 使 用 线程 特定 
数据 (26.5 节 ) , Digital Unix 4.0RIHP-UX 10.30 系 统 中 普通 的 
gethostbyname 和 gethostbyaddr 函 数 也 变 得 可 重 入 。Solaris 2.x 
的 _r 范 数 的 开发 历史 参见 [Maslen 1997] ° 


最 后 ， 虽 然 gethostbyname 的 可 重 入 版 本 可 以 在 同时 调用 它 的 不 同 
线程 之 间 提 供 安 全 性 ， 却 没有 提 及 文 撑 它 的 解析 怖 函数 的 重 入 性 。 


11.20 l'EREEIPvGOBEREPTER A 


在 开发 IPv6 期 间 ， 用 于 查找 IPv6 地 址 的 API 经 历 了 若干 次 反复 。 这 
些 早 期 的 API 既 复杂 又 没有 足够 的 灵活 性 ， 于 是 在 RFC 2553 [Gilligan 
et al. 1999| 中 被 淘汰 掉 。REFC 2553 又 引入 了 新 的 函数 ， 它 们 最 终 在 
RFC 3493 [Gilligan et al. 2003] FRA Fw getaddrinfo 
getnameinfo。 本 节 简 要 介绍 一 些 早期 的 API， 以 辅助 转换 已 经 使 用 
它们 的 程序 。 


11.20.4 RES USE INET6 常 值 


gethostbyname 没 有 可 指定 所 关心 地 址 族 的 参数 (就 像 
getaddrinfo 的 hints,ai_family 结 构成 员 ) ， 因 此 这 个 API 的 第 
一 个 修订 本 使 用 RES_USE_INET6 常 值 ， 使 用 者 必须 以 一 个 私 用 的 内 
部 接口 把 该 常 值 加 到 解析 器 标志 中 。 这 个 API 不 大 容易 移植 ， 因 为 使 
用 别 的 内 部 解析 器 接口 的 系统 不 得 不 模仿 BIND 解 析 器 接口 以 提供 它 。 


启用 RES_USE_INET6 会 使 gethostbyname 首 先 查 找 AAAA 记 
录 ， 奉 找 不 到 任何 AAAA 记 有 杂 则 接着 查找 A 记录 。 因 为 hostent 结 构 
只 有 一 个 地 址 长 度 字段 ， 所 以 gethostbyname 只 能 要 么 返回 IPv6 地 
址 ， 要 么 返回 IPv4 地 址 ， 而 不 能 同时 返回 这 两 种 地 址 。 
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启用 RES_USE_INET6 还 会 使 gethostbyname2 以 IPv4 映 射 的 
IPv6 地 址 的 形式 返回 IPv4 地 址 。 


11.20.2 gethostbyname2 ži 


gethostbyname2 函 数 给 gethostbyname 增 设 了 一 个 地 址 族 参 
数 。 


#include <sys/socket.h> 
#include <netdb.h> 


struct hostent *gethostbyname2(const char *name, int af); 


返回 : 车 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 


设置 h_errno 


当 af 参 数 为 AF_INET 时 ，gethostbyname2 的 行为 与 
gethostbyname 一 样 ， 即 查找 并 返回 IPv4 地 址 。 当 af 参 数 为 
AF_INET6 时 ，gethostbyname2 只 查找 AAAA 记 录 并 返回 IPv6 地 
址 。 


11.20.3 getipnodebyname 画 数 


RFC 2553 [Gilligan et al. 1999] 因为 RES_USE_INET6 标 志 的 全 
局 特性 以 及 对 返回 信息 进行 更 多 控制 的 愿望 而 废除 了 
RES_USE_INET6 和 gethostbyname2。 为 了 解决 其 中 一 些 问 题 ， 它 
同时 引入 getipnodebyname 函 数 。 


#include <sys/socket.h> 
#include <netdb.h> 


struct hostent *getipnodebyname(const char *name, int af, 


int flags, int *error num); 


返回 : 若 成 功 则 为 非 空 指针 ， 背 则 为 NULLI 


设置 error_num 


AKRO [HI TRET TR IHR 3X4] IB ge thostbynameERZA UTE fox. 
的 hostent 结 构 。af 和 jags 这 两 个 参数 直接 映射 到 getaddrinfo 的 
hints.ai familyfclhints.ai flags 参 数 。 为 了 线程 安全 起 见 ， 
返回 值 是 动态 分 配 的 ， 因 而 必须 使 用 freehostent 函 数 释放 。 


#include <netdb.h> 
void freehostent(struct hostent *ptr); 
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get ipnodebyname fll 5 Z Daca get ipnodebyaddr HAH 
RFC 3493 [Gilligan et al. 2003] 废除 ， 并 代 之 以 getaddrinfo 和 
getnameinfo 函 数 。 


11.21 其 他 网 络 相 关 信 息 


我 们 在 本 章 中 一 直 关 注 主 机 名 和 IP 地 址 以 及 服务 名 和 端口 号 。 然 
而 我 们 的 视野 可 以 更 广阔 些 ， 应 用 进程 可 能 想 要 查找 四 类 与 网 络 相 关 
的 信息 : 主机 、 网 络 、 协 议和 服务 。 大 多 数 查找 针对 的 是 主机 
(gethostbyname 和 gethostbyaddr) ， 一 小 部 分 查找 针对 的 是 
服务 (getservbyname 和 getservbyport) ， 更 小 一 部 分 查找 针 
对 的 是 网 络 和 协议 。 


所 有 四 类 信息 都 可 以 存放 在 一 个 文件 中 ， 每 类 信息 各 定义 有 二 个 
访问 函数 : 


(1) 函数 getXXXent 读 出 文件 中 的 下 一 个 表 项 ， 必 要 的 话 诈 先 打 
并 区 人 


(2) 画 数 setXXXent 打 开 (如 果 尚 未 打开 的 话 ) 并 回 绕 文件 ， 
(3) 函数 endXXXent 关 闭 文件 。 


每 类 信息 都 定义 了 各 目的 结构 ， 包 括 hostent、netent、 
protoent 和 servent。 这 些 定义 通过 包含 头 文 件 <netdb . h> 提 供 。 


除了 用 于 顺序 处 理 文件 的 get、set 和 end 这 三 个 函数 外 ， 每 类 信 
息 还 提供 一 些 键 值 查找 (keyed loopup) 函数 。 这 些 函 数 顺 序 遍历 整个 
文件 (通过 调用 getXXXent 函 数 读 出 每 一 行 ) ， 但 是 不 把 每 一 行 都 返 
回 给 调用 者 ， 而 是 寻找 与 某 个 参数 匹配 的 一 个 表 项 。 这 些 键 值 查 找 函 
数 具 有 形 如 getXXXbyYYY 的 名 字 。 举 例 来 说 ， 针 对 主机 信息 的 两 个 刍 
值 查找 函数 是 gethostbyname (查找 匹配 某 个 主机 名 的 表 项 ) 和 
gethostbyaddr (查找 匹配 某 个 IP 地 址 的 表 项 ) 。 图 11-21 汇 总 了 这 
些 信息 。 


indus 


/etc/Fcsts hostent. gerhostoyaddr, gethosthyname 
/etc/networks netent getnetbyaddr, getnetbyname 


/etc/protoccls prctoent getprotobvname, jetprotcbvnumber 


fetc/services servent getservoyname,  getservbyport 


图 11-21 四 类 网 络 相关 信息 


在 使 用 DNS 的 前 提 下 如 何 应 用 这 些 函 数 呢 ? 首 匈 ， 只 有 主机 和 网 
络 信息 可 通过 DNS 获取 ， 协 议和 服务 信息 总 是 从 相应 的 文件 中 读 取 。 
我 们 早先 在 本 章 中 (图 11-1) 提 到 过 ， 不 同 的 实现 有 不 同 的 方法 供 系 
统管 理 员 指定 征 使 用 DNS 还 是 使 用 文件 来 得 找 主 机 和 网 络 信息 。 
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其 次 ， 如 果 使 用 DNS 查找 主机 和 网 络 信息 ， 那 么 只 有 键 值 查 找 函 
数 才 有 意义 。 举 例 来 说 ， 你 不 能 使 用 gethostent 并 期 等 顺 序 遍 万 
DNS 中 的 所 有 表 项 。 如 果 调 用 gethostent， 那 么 它 仅仅 读 
取 /etcVhosts 文 件 并 避免 访问 DNS 。 


虽然 网 络 信息 可 以 做 成 通过 DNS 能 够 访问 到 ， 但 是 很 少 有 人 这 人 么 
fill ^ [Albitz and Liu 2001] 讲述 了 这 个 特性 。 典 型 的 做 法 反而 是 : A 
统管 理 员 创建 并 维护 一 个 /etc/networks 文 件 ， 网 络 信息 通过 它 而 
不 是 通过 DNS 获取 。 如 果 存 在 这 个 文件 ， 指 定 - 工 选项 的 netstat 程 序 
WEE fo BET BS oc AMM ACR SHE (A47) 使 得 这 些 函 数 
ae 而 且 它 们 又 不 支持 IPv6， 因 此 新 的 网 络 应 用 应 该 避免 使 用 
HATE 


11.22 ”小 结 


应 用 程序 用 来 把 主机 名 转换 成 IP 地 址 或 做 相反 转换 的 一 组 函数 称 
为 解析 器 。gethostbyname 和 gethostbyaddr 是 解析 器 曾 常用 的 
入 口 点 。 随 着 向 IPv6 和 线程 化 编程 模型 的 转移 ，getaddrinfo 和 
getnameinfo 显 得 更 为 有 用 ， 因 为 它们 既 能 解析 IPv6 地 址 ， 又 符合 线 
程 安全 调用 约定 。 


处 理 服务 名 和 端口 号 的 常用 函数 是 getservbyname， 它 接受 一 
个 服务 名 作为 参数 ， 并 返回 一 个 包含 相应 端口 号 的 结构 。 这 种 映射 关 
系 通常 包含 在 一 个 文本 文件 中 。 还 有 用 于 把 协议 名 映射 成 协议 号 以 及 
把 网 络 名 映射 成 网 络 号 的 函数 ， 不 过 很 少 使 用 。 


我 们 没有 提 到 的 另 一 种 可 选 方法 是 : 直接 调用 解析 器 函数 ， 以 代 
坎 使 用 gethostbyname 和 gethostbyaddr。 如 此 直接 应 用 DNS 的 
程序 之 一 是 sendmail， 因 为 它 需 要 搜索 MX 资源 记录 ， 这 是 
gethostbyXXX 函 数 无 法 做 到 的 。 解 析 器 函数 都 有 以 res_ 开 头 的 名 
字 ，res_init 函 数 就 是 一 个 例子 。 |Albitz and Liu 2001] 第 15 章 讲 
述 了 这 些 范 数 ， 并 有 调用 它们 的 一 个 例子 程序 ， 刍 入 “man 
resolver” 应 该 得 到 这 些 函 数 的 手册 页 面 。 


getaddrinfo 是 一 个 非常 有 用 的 函数 ， 它 允许 我 们 编写 协议 无 
天 的 代码 。 然 而 直接 调用 它 要 人 花 多 个 步骤 ， 而 且 对 于 不 同 的 情形 仍 有 
反复 出 现 的 细 市 需要 处 理 ， 如 允 历 所 有 返回 的 结构 ， 忽 略 Socket 返 
回 的 错误 ， 为 TCP 服 务 器 设置 SO_REUSEADDR 套 接 字 选项 ， 等 等 。 我 
们 编写 了 5 个 访问 getaddrinfo 的 接口 函数 tcp_connect、 
tcp_listen ` udp_client `udp_connect ` udp_server, D4 
简化 所 有 这 些 细节 。 我 们 通过 编写 TCP 上 或 UDP 上 时 间 获 取 客 户 和 服 
务 狼 程序 的 协议 无 天 版 本 展示 了 这 些 函 数 的 用 法 。 


gethostbyname 和 gethostbyaddr 通 常 也 是 不 可 重 入 的 函 
数 。 这 两 个 函数 共享 一 个 静态 的 结果 结构 ， 都 返回 指向 该 结构 的 一 个 
旨 针 。 到 第 26 章 介绍 线程 时 我 们 还 会 遇 到 并 讨论 重 入 问题 。 我 们 介绍 
了 一 些 广 商 提供 的 这 两 个 函数 的 _r 版 本 。 它 们 提供 了 一 种 解决 方法 ， 
但 是 需要 对 调用 这 些 函 数 的 所 有 应 用 程序 加 以 修改 。 


习题 


11.1 修改 图 11-3 中 的 程序 ， 为 每 个 返回 的 地 址 调用 
gethostbyaddr ， 然 后 显示 由 它 返 回 的 h_name 。 首 先 指定 一 个 只 有 
单个 IP 地 址 的 主机 名 运行 本 程序 ， 然 后 指定 一 个 有 多 个 IP 地 址 的 主机 
名 运行 本 程序 ， 将 会 发 生 什 么 ? 


11.2 ”修复 上 个 习题 中 出 现 的 问题 。 
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11.3 ”将 服务 名 指定 为 chargen， 运 行 图 11-4 中 的 程序 。 


11.4 ”指定 一 个 点 分 十 进 制 数 串 格式 的 IP 地 址 作为 主机 名 运行 图 
11-4 中 的 程序 。 你 的 解析 器 允许 这 么 做 吗 ? 把 图 11-4 中 的 程序 改 为 允 
许 把 点 分 十 进 制 数 串 格 式 的 下地 址 作为 主机 和 名， 把 十 进 制 数 串 格式 的 
端口 号 作为 服务 名 。 在 测试 主机 名 参数 是 一 个 点 分 十 进 制 数 串 还 是 一 
个 主机 名 字符 串 时 ， 应 该 如 何 编排 这 两 个 测试 的 顺序 ? 


11.5 ”修改 图 11-4 中 的 程序 ， 使 得 它 对 于 IPv4 和 IPv6 都 能 工作 。 


11.6 ”修改 图 11-4 中 的 程序 ， 使 得 它 反 同 查找 DNS， 然 后 比较 返回 
的 IP 地 址 和 目的 主机 的 所 有 IP 地 址 。 也 就 是 说 ， 先 用 由 recvfrom 返 
回 的 也 地 址 调用 gethostbyaddr， 后 跟 gethostbyname 调 用 以 找 出 
目的 主机 的 所 有 IP 地 址 。 


11.7 ”在 图 11-12 中 ， 调 用 者 必须 传递 一 个 整数 指针 以 获取 协议 地 
址 的 大 小 。 如 果 调 用 者 没有 这 么 做 〈 也 束 是 作为 最 后 一 个 参数 传递 的 
征 一 个 空 指 针 ) ， 那 么 它 怎 样 才能 取得 协议 地 址 真正 的 大 小 呢 ? 


11.8 修改 图 11-14 中 的 程序 ， 改 用 getnameinfo 代 替 
sock_ntop。 应 该 传递 给 getnameinfo 哪 些 标志 ? 


119 在 7.5 节 我 们 随 SO_REUSEADDR 套 接 字 选项 讨论 过 端口 盗用 
问题 。 为 了 和 弄 清 它 的 工作 机 理 ， 我 们 以 图 11-19 为 源 程序 构造 一 个 协议 
无 关 的 UDP 时 间 获 取 服 务 器 程序 。 在 一 个 窗口 中 启动 该 服务 器 的 一 个 


实例 ， 给 它 捆 绑 通 配 地 址 和 某 个 由 你 选择 的 端口 。 在 另 一 个 窗口 中 局 
动 一 个 客户 ， 并 验证 服务 器 正在 处 理 客户 请 求 (注意 服务 器 的 
printf 调 用 ) 。 接 着 在 第 三 个 窗口 中 启动 服务 器 的 另 一 个 实例 ， 这 
次 给 它 捆绑 该 主机 的 一 个 单 播 地址 以 及 与 第 一 个 服务 器 相同 的 端口 。 
你 马上 碰 到 的 是 什么 问题 ? 修复 这 个 问题 后 重新 启动 第 二 个 服务 器。 
局 动 一 个 客户 ， 发 送 一 个 数据 报 ， 验 证 第 二 个 服务 硕 已 盗用 了 第 一 个 
服务 器 的 端口 。 要 是 可 能 的 话 ， 使 用 与 启动 第 一 个 服务 絮 所 用 的 登录 
账号 不 同 的 男 一 个 账号 再 次 启动 第 二 个 服务 器 ， 看 能 否 继续 成 功 次 
oo ne ee ee ae 
端口 。 


11.10 ”在 2.12 市 末尾 我 们 展示 了 两 个 telnet 例 子 : 一 个 连接 到 
时 间 获 取 服 务 器 ， 男 一 个 连接 到 回 射 服务 器 。 已 知客 户 要 经 历 
gethostbyname 和 connect 这 两 个 步骤 ， 你 能 判定 它 的 哪些 输出 行 
对 应 哪个 步骤 吗 ? 


11.11 如果 找 不 到 给 定 IP 地 址 对 应 的 主机 名 ，gethostbyaddr 
可 能 就 得 花 很 长 时 间 (最 长 80s) 才能 返回 一 个 错误 。 编 写 一 个 新 的 名 
为 getnameinfo_timeo 的 函数 ， 它 有 一 个 额外 的 整数 参数 用 于 指定 
等 待 应 答 的 最 大 秒 数 。 如 果 发 生 超时 并 且 没 有 设置 NI_NAMEREQD 标 
志 ， 那 就 调用 inet_ntop 返 回 一 个 地 址 串 。 
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第 二 部 分 MARS AE 


12 IPv4 与 IPv6 的 互 操作 性 


12.1 概述 


在 未 来 数 和 年内， 因特网 也 许 会 逐渐 地 从 IPv4 过 渡 到 IPv6。 在 这 个 
过 渡 阶 段 ， 基 于 IPv4 的 现 有 应 用 程序 能 够 和 基于 IPv6 的 全 新 应 用 程序 
继续 协同 工作 显得 非常 重要 。 举 例 来 说 ， 矿 商 不 应 该 只 提供 仅 能 与 
IPv6 telLnet 服 务 器 程序 协同 工作 的 telnet 客 户 程序 ， 而 应 该 既 提 供 
能 与 IPv4 服 务 需 程序 协同 工作 的 客户 程序 ， 又 提供 能 与 IPv6 服 务 器 程 
序 协同 工作 的 客户 程序 。 更 理想 的 情形 是 ， 一 个 IPV6 的 telnet 客 户 程 
序 既 能 与 IPv4 服 务 器 程序 协同 工作 ， 又 能 与 IPv6 服 务 器 程序 协同 工 
作 ， 相 应 地 一 个 IPv6 的 telnet 服 务 絮 程序 既 能 与 IPv4 客 户 程 序 协同 工 
eer 程序 协同 工作 。 我 们 将 通过 本 章 了 解 这 是 如 何 实 
7 Mo 


FeAl | at BEANS BOE HLA-B (dual stacks) ， 意 指 一 个 
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栈 主 机 。 在 向 IPv6 转 换 的 漫长 过 渡 期 内 ， 主 机 和 路 由 器 也 许 会 如 此 运 
行 许 多 年 。 到 了 某 个 时 间 点 后 ， 许 多 系统 可 以 关闭 它们 的 IPv4 协 议 
栈 ， 然 而 只 有 时 间 才 能 告诉 我 们 这 种 情况 何 时 (以 及 是 否 ) 会 发 生 。 

在 本 章 中 ， 我 们 将 讨论 IPv4 应 用 进程 和 IPv6 应 用 进程 如 何 才能 彼 
o 使 用 IPv4 或 IPv6 的 客户 或 服务 器 之 间 存 在 如 图 12-1 所 示 的 四 

组 合 。 


IPv4 上 服务 器 IP v6 II i 
IPv4 F' 儿 平 全 部 现 有 客户 见 12.2 节 
AVR oe REF 
IPv 625 P 见 12.3 节 对 于 人 多 数 现 有 客户 和 服务 器 程序 
的 管 单 修改 (例如 从 图 1-5 至 图 1-6》 


图 12-1 使 用 IPv4 或 IPv6 的 客户 与 服务 器 的 组 


D» 
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对 于 客户 和 服务 器 使 用 相同 协议 的 那 两 种 情形 我 们 不 再 过 多 讨 
论 。 我 们 感 兴 趣 的 是 客户 和 服务 亏 使 用 不 同 协议 的 那 两 种 情形 。 


12.2 IPpv4ePSIPvEMSs 88 


双 栈 主机 的 一 个 基本 特性 是 其 上 的 IPv6 服 务 器 既 能 处 理 IPv4 客 
户 ， 又 能 处 理 IPv6 客 户 。 这 是 通过 使 用 IPv4 映 射 的 IPv6 地 址 实现 的 
(图 A-10) 。 图 12-2 展 示 了 这 样 的 一 个 例子 。 
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图 12-2” 双 栈 主机 上 的 IPv6 服 务 器 为 IPvV4 和 IPv6 客 户 服务 


左 侧 有 一 个 IPv4 客 户 和 一 个 IPv6 客 户 。 右 侧 的 服务 器 其 程序 使 用 
IPV6 编 写 。 该 服务 器 创建 了 一 个 绑 定 在 IPv6 通 配 地 址 和 和 TCP 端口 9999 
上 的 IPv6 监 听 TCP 套 接 字 。 


我 们 假设 客户 和 服务 万 主 机 处 于 同一 个 以 太 网 。 当 然 它 们 也 可 以 
通过 路 由 器 连接 ， 只 要 所 有 路 由 器 部 同 时 支持 IPv4 和 IPv6， 不 过 这 对 
于 我 们 的 讨论 并 没有 任何 影响 。B.3 节 将 讨论 另外 一 种 情况 ，IPv6 的 客 
户 和 服务 万 主机 之 间 通 过 只 文 持 IPv4 的 路 由 需 连 接 。 
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我 们 假设 这 两 个 客户 都 发 送 SYN 分 节 以 建立 与 服务 器 的 连接 。 
IPv4 客 户主 机 在 一 个 IPv4 数 据 报 中 载 送 SYN，IPv6 客 户主 机 在 一 个 
IPv6 数 据 报 中 载 送 SYN。 来 自 IPv4 客 户 的 TCP 分 节 在 以 太 网 线 上 表现 
为 一 个 以 太 网 首部 后 跟 一 个 IPv4 首 部 、 一 个 TCP 首 部 以 及 TCP 数 据 。 
以 太 网 首部 中 包含 的 类 型 字段 值 为 0xX0800， 它 把 本 以 太 网 帧 标识 为 
一 个 IPv4 巾 。TCP 首 部 中 包含 的 目的 端口 为 9999。 (这 些 首 部 的 格式 
和 内 容 在 附录 A 中 详细 讲解 。) IPv4 首 部 中 的 包含 的 目的 人 P 地 址 为 
206.62.226.42。 


来 目 IPv6 客 户 的 TCP 分 贡 在 以 太 网 线 上 表现 为 一 个 以 太 网 首部 后 
跟 一 个 IPv6 首 部 、 一 个 TCP 首 部 以 及 TCP 数 据 。 以 太 网 首部 中 包含 的 
类 型 字段 值 为 (x86dd， 它 把 本 以 太 网 帧 标识 为 一 个 IPv6 帧 。 这 个 TCP 
首部 和 IPv4 数 据 报 中 的 TCP 首 部 格式 完全 一 样 ， 也 包含 值 为 9999 的 目 
的 端口 。IPv6 首 部 中 包含 的 目的 卫 地 址 为 
5f1b:df00:ce3e: e200: 20: 800: 2b37 : 6426 ° 
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模块 。IPv4 模 块 结合 其 上 的 TCP 模 块 检测 到 IPv4 数 据 报 的 目的 端口 对 
应 一 个 IPv6 套 接 字 ， 于 是 把 该 数据 报 IPv4 首 部 中 的 源 IPv4 地 址 转换 成 
一 个 等 价 的 IPv4 映 射 的 IPv6 地 址 。 当 accept 系 统 调 用 把 这 个 已 经 接受 
的 IPv4 客 户 连 接 返 回 给 服务 器 进程 时 ， 这 个 映射 后 的 地 址 将 作为 客户 
的 IPv6 地 址 返回 到 服务 器 的 IPv6 套 接 字 。 该 连接 上 其 余 的 数据 报 同样 
都 是 IPv4 数 据 报 。 


当 accept 系 统 调用 把 接受 的 IPv6 客 户 连 接 返 回 给 服务 器 进程 时 ， 
该 客户 的 IPv6 地 址 就 是 出 现在 IPv6 首 部 中 的 源 地 址 ， 未 做 任何 改动 。 
该 连接 上 其 余 的 数据 报 都 是 IPv6 数 据 报 。 


我 们 可 以 把 允许 一 个 IPv4 的 TCP 客 户 和 一 个 IPv6 的 TCP 服 务 器 进行 
通信 的 步骤 总 结 如 下 。 


(1) IPv6 服 务 器 启动 后 创建 一 个 IPv6 的 监听 套 接 字 ， 我 们 假定 服务 
器 把 通 配 地 址 捆绑 到 该 套 搂 字 。 


(2) IPv4 客 户 调 用 gethostbyname 找 到 服务 器 主机 的 一 个 A 记 
了 示 。 服 务 器 主机 既 有 一 个 A 记 录 ， 又 有 一 个 AAAA 记 录 ， 因 为 它 同 时 
支持 IPv4 和 IPv6， 不 过 IPv4 客 户 需 要 的 只 是 一 个 A 记录 。 


(3) 客户 调用 connect， 导 致 客户 主机 发 送 一 个 IPv4 SYN 到 服务 
器 主机 。 


(4) 服务 器 主机 接收 这 个 目的 地 为 IPv6 监 听 套 接 字 的 IPv4 SYN, 3X 
置 一 个 标志 指示 本 连接 应 使 用 IPv4 映 射 的 IPv6 地 址 ， 然 后 响应 以 一 个 
IPv4 SYN/ACK 。 该 连接 建立 后 ， 由 accept 返 回 给 服务 器 的 地 址 就 是 
这 个 IPv4 映 射 的 IPv6 地 址 。 


(5) 当 服 务 器 主机 往 这 个 IPv4 上 映射 的 IPv6 地 址 发 送 TCP 分 节 时 ， 其 
IP 栈 产生 目的 地 址 为 所 映射 IPv4 地 址 的 IPv4 载 送 数 据 报 。 因 此 ， 客 户 
和 服务 器 之 间 的 所 有 通信 都 使 用 IPv4 的 载 送 数 据 报 。 


(6) 除非 服务 器 显 式 检查 这 个 IPv6 地 址 是 不 是 一 个 IPv4 映 射 的 IPvV6 
地 址 (使 用 将 在 12.4 节 介绍 的 IN6_IS_ADDR_V4MAPPED 宏 ) , Fill 
它 永 远 不 知道 自己 是 在 与 一 个 IPv4 客 户 通 信 。 这 个 细节 由 双 协 议 栈 处 
理 。 同 样 地 ，IPvVv4 客 户 也 不 知道 自己 是 在 与 一 个 IPv6 服 务 器 通信 。 


上 述 情 形 的 一 个 支撑 性 假设 是 : 双 栈 服务 器 主机 既 有 一 个 IPv4 地 
址 ， 又 有 一 个 IPv6 地 址 。 在 所 有 IPv4 地 址 耗 尽 之 前 ， 这 个 假设 没有 问 


题 。 
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IPv6 的 UDP 服 务 器 也 有 类 似 的 情形 ， 不 过 每 个 数据 报 的 地 址 格式 
可 能 有 所 变动 。 举 例 来 说 ， 如 果 IPv6 服 务 器 收 到 来 自 某 个 IPv4 客 户 的 
一 个 数据 报 ， 由 recvfrom 返 回 的 地 址 将 是 该 客户 的 IPv4 映 射 的 IPv6 
地 址 。 服 务 器 以 这 个 IPv4 映 射 的 IPv6 地 址 调用 sendto 给 出 对 本 客户 请 
求 的 啊 应 。 这 个 地 址 格式 告知 内 核 同 客户 发 送 一 个 IPv4 数 据 报 。 然 而 
服务 器 收 到 的 下 一 个 数据 报 可 能 是 一 个 IPv6 数 据 报 ，recvfrom 将 返 
回 其 客户 的 IPv6 地 址 。 如 果 服 务 器 给 出 响应 ， 那 么 内 核 将 产生 一 个 
IPv6 数 据 报 。 


图 12-3 汇 总 了 在 一 个 双 栈 主机 上 收 到 的 IPv4 数 据 报 或 IPv6 数 据 报 
如 何 根 据 接收 套 接 字 的 类 型 (TCP 或 UDP) 进行 处 理 的 流程 。 


| AF INET AF INET 
IPy4 亦 楼 字 4  SOCK STREAM 50CK_DGRAM 
1 sockacer_in sockaddr_in 
f | AF_INBT6 AF_INETS 
IPOE SOCK STREAM SOCK DERAM 
l sockadóér :n6 sockaddr_ine 
acceptl 或 
ayfr ma « 
辐 的 地 " 


IPv4 数 据 报 IPv6 Tid 


图 12-3 ”根据 接收 套 接 字 类 型 处 理 收 到 的 IPv4 数 据 报 或 IPv6 数 据 报 


。 如 果 收 到 一 个 目的 地 为 某 个 IPv4 套 接 字 的 IPv4 数 据 报 ， 那 么 无 需 
任何 特殊 处 理 。 它 们 在 图 中 是 标 为 *IPv4” 的 那 两 个 箭头 : 一 个 到 
TCP, 一 个 到 UDP。 客户 和 服务 絮 之 间 交 换 的 是 IPv4 数 据 报 。 

。 如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv6 数 据 报 ， 那 么 无 需 
任何 特殊 处 理 。 它 们 在 图 中 是 标 为 *IPv6” 的 那 两 个 箭头 : 一 个 到 
TCP， 一 个 到 UDP。 客户 和 服务 絮 之 间 交 换 的 是 IPv6 数 据 报 。 

。 如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv4 数 据 报 ， 那 么 内 核 
把 与 该 数据 报 的 源 IPv4 地 址 对 应 的 IPv4 欧 届 的 IPv6 地 址 作为 由 
accept (TCP) 或 recvfrom (UDP) 返回 的 对 端 ITPv6 地 址 。 它 
们 在 图 中 是 两 个 虚线 箭头 。 这 样 的 映射 是 可 4 了 的 ， 因为 任何 二 
IPv4 地 址 总 能 表示 成 一 个 IPv6 地 址 。 客 户 和 服务 器 之 间 交 换 的 是 
IPv4 数 据 报 。 
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。 上 一 点 的 相反 面 却 不 成 立 : 一 般 说 来 ， 一 个 IPv6 地 址 无 法 表示 成 
一 个 IPv4 地 址 ; 因此 图 中 没有 从 IPv6 协 议 框 到 两 个 IPv4 套 接 字 的 


箭头 。 
大 多 数 双 栈 主机 在 处 理 监 听 套 接 字 时 应 使 用 以 下 规则 e 
(1) IPv4 监 听 套 接 字 只 能 接受 来 目 IPv4 客 户 的 外 来 连接 。 


(2) 如 果 服 务 器 有 一 个 绑 定 了 通 配 地 址 的 IPv6 监 听 套 接 字 ， 而 且 该 
套 接 字 未 设置 ITPV6_V60NLY 套 接 字 选项 (7.805) ， 那 么 该 套 接 字 既 
能 接受 来 目 IPv4 客 户 的 外 来 连接 ， 又 能 接受 来 目 IPv6 客 户 的 外 来 连 
接 。 对 于 来 目 IPv4 客 户 的 连接 而 言 ， 其 服务 万 端的 本 地 地 址 将 是 与 茶 
个 本 地 IPv4 地 址 对 应 的 IPv4 映 射 的 IPv6 地 址 。 


(3) 如 果 服 务 器 有 一 个 IPv6 监 听 套 接 字 ， 而 且 绑 定 在 其 上 的 是 除 
IPV4 映 射 的 IPv6 地 址 之 外 的 某 个 非 通 配 IPv6 地 址 ， 或 者 绑 定 在 其 上 的 
是 通 配 地 址 ， 不 过 还 设置 了 IPV6_V60NLY 套 接 字 选项 (7.8 节 ) ， 那 
么 该 套 接 字 只 能 接受 来 自 IPv6 客 户 的 外 来 连接 © 


12.3 IPv6 客 户 与 IPv4 服 务 顺 


我 们 现在 对 换 一 下 上 一 节 例 子 中 的 客户 和 服务 器 使 用 的 协议 。 首 
先 考 虚 运 行 在 一 个 双 栈 主机 上 的 一 个 IPv6 的 TCP 客 户 。 


(1) 一 个 IPv4 服 务 器 在 只 支持 IPv4 的 一 个 主机 上 启动 后 创建 一 个 
IPv4 的 监听 套 接 字 。 


(2) IPv6 客 户 启动 后 调用 getaddrinfo 单 纯 查 找 IPv6 地 址 (因为 
它 请 求 的 是 AF_INET6 地 址 族 ， 而 且 在 hints 结 构 中 设置 了 
AI_V4MAPPED 标 志 ) 。 既 然 只 支持 IPv4 的 那个 服务 絮 主 机 只 有 Ai 记 
录 ， 我 们 从 图 11-8 看 到 返回 给 客户 的 是 一 个 IPv4 上 映射 的 IPv6 地 址 。 

(3) IPv6 客 户 在 作为 函数 参数 的 IPv6 套 接 字 地 址 结构 中 设置 这 个 
IPv4 映 射 的 IPv6 地 址 后 调用 connect。 内 核 检 测 到 这 个 映射 地 址 后 自 
动 发 送 一 个 IPv4 SYN 到 服务 器 。 


(4) 服务 器 响应 以 一 个 IPv4 SYN/ACK， 连 接 于 是 通过 使 用 IPv4 数 
据 报 建立 。 
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我 们 可 以 用 图 12-4 汇 总 上 述 通 信步 骤 。 


UJ 


g AF INET AF_INET 


PURRE? SOCK_STREAM SOCK_DGRAM 
g sockaddr in sockaddr_in 
AF_INET6 AF INET6 
SOCK STREAM SOCK DGRAM 


IPv64z ET: | 


sockaddr in6 sockaddr in6 


connect ik IPy4 | > QNS IPv6 
senate! H | g x 
的 地 址 | 


IPv4 BRR IP v6 t MR 


图 12-4 根据 地 址 类 型 和 套 接 字 类 型 处 理 客户 请 求 


。 如果 一 个 IPv4 的 TCP 客 户 指定 一 个 IPv4 地 址 以 调用 connect ， 或 
者 一 个 IPv4 的 UDP 客户 指定 一 个 IPv4 地 址 以 调用 sendto， 那 么 无 
需 任 何 特殊 处 理 。 它 们 在 图 中 是 标 为 "IPv 的 那 两 个 箭头 。 

如 果 一 个 IPv6 的 TCP 客 户 指定 一 个 IPv6 地 址 以 调用 connect ， 或 
者 一 个 IPv6 的 UDP 客户 指定 一 个 IPv6 地 址 以 调用 sendto， 那 么 无 
需 任 何 特殊 处 理 。 它 们 在 图 中 是 标 为 *IPv6” 的 那 两 个 箭头 。 

如 果 一 个 IPv6 的 TCP 客 户 指定 一 个 IPv4 映 射 的 IPv6 地 址 以 调用 
connect, 或 者 一 个 IPv6 的 UDP 客 户 指 定 一 个 IPv4 上 映射 的 IPv6 地 
址 以 调用 sendto， 那 么 内 核 检 测 到 这 个 映射 地 址 后 改 为 发 送 一 
个 IPv4 数 据 报 而 不 是 IPv6 数 据 报 。 它 们 在 图 中 是 两 个 虚线 箭头 。 


。 不 论调 用 connect 还 是 调用 sendto，IPv4 客 户 都 不 能 指定 一 个 
IPv6 地 址 ， 因 为 16 个 字 节 的 IPv6 地 址 超出 了 IPv4 的 sockaddr_in 
结构 中 的 jn_addr 成 员 结 构 的 4 字 节 长 度 。 因 此 图 中 没有 从 IPv4 
套 接 字 到 IPv6 协 议 框 的 箭头 。 


上 一 节 讨 论 的 IPv4 数 据 报到 达 某 个 IPv6 套 接 字 的 情形 中 ， 内 核 把 
收 到 的 IPv4 地 址 转换 成 IPv4 映 射 的 IPv6 地 址 ， 并 通过 accept 或 
recvfrom 把 映射 地 址 透明 地 返回 给 应 用 进程 。 本 节 讨 论 的 通过 某 个 
IPv6 套 接 字 发 送 ITPv4 数 据 报 的 情形 中 ， 从 IPv4 地 址 到 IPv4 映 射 的 IPv6 地 
址 之 间 的 转换 却 由 解析 器 根据 图 11-8 中 的 规则 完成 ， 映 射 地 址 随后 由 
应 用 进程 透明 地 传递 给 connect 或 sendto 。 


对 互 操 作 性 的 总 结 


图 12-5 汇 尽 了 本 市 和 上 一 市 的 内 容 ， 同 时 给 出 了 客户 和 服务 器 的 
各 种 组 合 。 


]Pwa 服 务 关 JPvd 单 | IPxolli ši Pv Pj [pv4 上 服务 器 双 栈 主 [Pwo i+ 28 AL E 
Fe FAL CHAD Fe TF BLL@EAAAA ! HL CAAIAASA)D 


JPv3 客 户 ，1Pv4 单 或 十 托 
vie, [Pye ez EBL 


《无 4) 


图 12-5 ”IPv4 和 IPV6 客 户 与 服务 器 互 操作 性 总 结 


中 标 为 “IPv4” 或 “TPv6” 的 栏目 表示 相应 组 合 有 效 ， 并 指出 了 实 
际 使 用 的 协议 ， 标 为 “(no) ”的 栏目 表示 相应 组 合 无 效 。 最 后 一 行 第 
三 列 标 了 星 号 ， 因 为 该 栏目 的 互 操 作 性 取决 于 客户 选择 的 地 址 。 如 果 
选择 AAAA 记 录 从 而 发 送 IPv6 数 据 报 ， 那 就 不 能 工作 。 然 而 如 果 选 择 A 
记录 ， 而 这 个 A 记录 实际 作为 一 个 IPv4 映 射 的 IPv6 地 址 返回 给 客户 ， 使 
得 客户 发 送 IPv4 数 据 报 ， 那 就 能 够 工作 。 通 过 如 图 11-4 所 示 在 一 个 循 
环 中 通 试 由 getaddrinfo 返 回 的 所 有 地 址 ， 可 确保 试用 这 个 IPv4 映 射 
的 IPv6 地 址 。 


尽管 从 图 示 表 格 看 有 四 分 之 一 强 的 组 合 不 能 互 操作 ， 然 而 在 可 预 
见 将 来 的 现实 世界 中 ，IPv6 的 多 数 实现 将 运行 在 双 栈 主机 上 ， 因 而 不 
征 IPv6 单 栈 实 现 。 如 采 我 们 因此 删 去 表 中 的 第 二 行 和 第 二 列 ， 那 么 所 


pM (no) ”的 栏目 都 消失 了 ， 剩 下 的 唯一 问题 是 标 了 星 号 的 栏 
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12.4 _IPv6 地 址 测试 宏 


有 一 小 类 的 IPv6 应 用 进程 必须 清楚 与 其 通信 的 是 不 是 IPv4 对 端 。 
这 些 应 用 程序 需要 知道 对 端的 地 址 是 不 是 一 个 IPv4 映 射 的 IPv6 地 址 。 
头 文 件 <netinet/in,h> 中 定义 的 以 下 12 个 宏 用 于 测试 一 个 IPv6 地 址 
是 否 归 属 某 个 类 型 。 


#include <netinet/in.h> 


IN6_IS_ADDR_UNSPECIFIED(const struct in6_addr *aptr); 
IN6 IS ADDR LOOPBACK(const struct in6 addr *aptr); 
IN6 IS ADDR MULTICAST(const struct in6 addr *aptr); 
IN6 IS ADDR LINKLOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR SITELOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR VAMAPPED(const struct in6 addr *aptr); 
IN6 IS ADDR VACOMPAT(const struct in6 addr *aptr); 


IN6 IS ADDR MC NODELOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR MC LINKLOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR MC SITELOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR MC ORGLOCAL(const struct in6 addr *aptr); 
IN6 IS ADDR MC GLOBAL(const struct in6 addr *aptr); 
TRI: 若 IPv6 地 址 归属 指定 类 型 则 


为 非 0， 否 则 为 0 


前 7 个 宏 测 斌 IPv6 地 址 的 基本 类 型 。 我 们 在 A.5 节 中 介绍 这 些 地 址 
类 型 。 后 5 个 宏 测 试 IPv6 多 播 地 址 的 范围 (21.277) ° 


IPv4 兼 容 的 IPv6 地 址 用 于 后 来 不 被 看 好 的 某 个 过 渡 机 制 。 你 不 大 
可 能 实际 看 到 这 类 地 址 ， 也 没有 测试 它 的 必要 。 


IPv6 客 户 可 以 调用 IN6_IS_ADDR_V4MAPPED 宏 测试 由 解析 器 返 
回 的 IPv6 地 址 。IPv6 服 务 器 同样 可 以 调用 这 个 宏 测 试 由 accept 或 
recvfrom 返 回 的 IPv6 地 址 。 


作为 需要 使 用 这 个 宏 的 一 个 例子 ， 让 我 们 考虑 FTP 和 它 的 PORT 指 
令 。 如 果 启 动 一 个 FTP 客户 ， 登 录 到 一 个 FIP 服务 器 ， 然 后 发 出 FTP 的 
dir 命 令 ， 那 么 FTP 客 户 将 通过 控制 连接 向 FTP 服 务 絮 发 送 一 个 PORT 
令 。 这 条 指令 把 客户 的 IP 地 址 和 端口 号 告知 服务 器 ， 服 务 器 据 此 随 


后 就 建立 一 个 数据 连接 。 (TCPv1 的 第 27 章 中 包含 FTP 应 用 协议 的 所 
AMT °) 然而 IPv6 的 FTP 客 户 必 须 清楚 对 端 是 一 个 IPv4 服 务 器 还 是 一 
个 IPv6 服 务 器 ， 因 为 两 者 所 需 的 PORT 指令 格式 是 不 同 的 。 前 者 需要 的 
格式 形 如 “PORT al,a2,a3,a4,P1,P2”， 其 中 前 四 个 数字 (每 个 都 
1E0--2552.]R]) 构成 一 个 4 字 节 的 IPv4 地 址 ， 后 两 个 数字 构成 2 字 节 的 
端口 号 。 后 者 需要 一 个 EPRT 指 令 (参见 RFC 2428 [Allman, 
Ostermann, and Metz 1998] ) ， 包 含 一 个 地 址 族 、 文 本 格式 的 地 址 和 
ac Deum 口号 。 习 题 12.1 给 出 了 IPv4 和 IPv6 上 FTP 协 议 行为 的 一 个 
列子 。 
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12.5 ” 源 代 码 可 移植 性 


大 多 数 现 有 的 网 络 应 用 程序 是 为 IPv4 编 写 的 。 这 些 应 用 程序 分 配 
并 填写 一 个 或 多 个 sockaddr_in 结 构 ， 并 且 调 用 socket 总 是 指定 
AF_INET 为 第 一 个 函数 参数 。 从 图 1-5 到 图 1-6 的 转换 可 以 看 出 ， 把 这 
些 IPv4 应 用 程序 转换 成 用 上 IPv6 并 不 费劲 。 我 们 展示 过 的 修改 操作 中 
有 许多 可 使 用 一 些 编辑 脚本 自动 执行 。 较 为 依赖 IPv4 的 程序 转换 起 来 
eens 因为 它们 使 用 了 诸如 多 播 、IP 选 项 或 原始 套 接 字 等 特 


如 条 在 源 代 码 级 上 把 一 个 应 用 程序 转换 成 用 上 IPv6 并 发 布 它 ， 那 
么 我 们 还 不 得 不 考虑 接纳 者 的 系统 是 否 文 持 IPv6。 这 个 考虑 的 典型 处 
理 办 法 是 在 代码 中 到 处 使 用 #ifdef 伪 代码 ， 以 尽 可 能 使 用 IPv6 (因为 
我 们 已 在 本 章 中 看 到 ，IPv6 客 户 仍 能 与 IPv4 服 务 絮 通信 ， 反 之 杰 
PR) 。 这 种 办 法 的 问题 是 : 代码 将 被 杂乱 无 章 地 迅速 插入 许多 
#ifdef 伪 代码 ， 在 代码 理解 和 维护 上 造成 困难 。 


更 好 的 办 法 是 把 这 种 向 IPv6 的 转换 视 为 促成 程序 变 得 协议 无 关 的 
一 个 机 会 。 第 一 步 去 除 所 有 gethostbyname 和 gethostbyaddr 调 
用 ， 改 用 前 一 章 中 讲解 过 的 getaddrinfo 和 getnameinfo 这 两 个 画 
数 。 这 一 步 使 得 我 们 能 够 把 套 接 字 地 址 结构 作为 不 透明 对 象 来 处 理 ， 
并 且 就 像 pind、connect、recvfrom 等 基本 套 接 字 函数 所 做 的 那 
样 ， 用 一 个 指针 及 大 小 来 指 代 它们 。3.8 节 的 sock_XXX 函 数 能 够 帮助 
我 们 独立 于 IPv4 和 IPv6 地 操纵 它们 。 显 然 这 些 函 数 中 含有 #ifdef 伪 代 
码 以 处 理 IPv4 和 IPv6， 但 是 把 所 有 的 协议 相关 内 容 隐 和 菩 在 若干 个 库 画 
数 中 将 简化 我 们 的 代码 。 我 们 将 在 21.7 节 开发 一 组 mcast_XXX 函 数 ， 
它们 能 够 使 得 多 播 应 用 程序 独立 于 IPv4 或 IPv6 。 


另 一 点 需要 考虑 的 是 : 如 果 我 们 在 一 个 同时 文 持 IPv4 和 IPv6 的 系 
统 上 编译 源 代 码 ， 然 后 发 布 其 可 执行 代码 或 目标 文件 (但 是 不 发 布 源 
代码 ) ， 然 而 某 个 接纳 者 却 在 不 文 持 IPv6 的 某 个 系统 上 执行 我 们 的 应 
用 程序 ， 那 会 发 生 什 么 ? 假设 该 接纳 者 存在 这 样 一 个 机 会 : 本 地 名 字 
服务 器 支持 AAAA 记 录 ， 并 且 能 够 为 我 们 的 应 用 进程 党 试 连接 到 的 某 
个 对 端 主机 同时 返回 AAAA 记 录 和 A 记 录 。 当 我 们 的 应 用 进程 调用 
socket 创 建 ITPv6 套 接 字 时 ， 如 果 本 地 主机 不 文 持 IPv6， 那 么 Socket 


Wal FARA FUSER o FAT AT CA AHR OR E socketHfsix, ARSE iA 
名 字 服 务 器 返回 的 地 址 列表 中 的 下 一 个 地 址 ， 而 这 些 细节 由 我 们 在 前 
一 章 中 介绍 过 的 帮手 函数 ( 即 getaddrinfo 的 若干 个 简化 访问 接口 
函数 ) 来 处 理 。 假 设 对 端 主机 有 一 个 A 记录 ， 并 且 名 字 服 务 器 在 返回 
所 有 AAAA 记 杂 之 后 还 返回 这 个 A 记录 ， 那 束 有 可 能 成 功 创建 一 个 IPv4 
套 接 字 。 这 类 功能 应 归属 某 个 库 函 数 提供 ， 而 不 应 该 出 现在 每 个 应 用 
程序 的 源 代码 中 。 


为 了 能 够 把 套 接 字 描 述 符 传递 给 单纯 支持 IPv4 或 IPv6 的 应 用 进 
程 ，RFC 2133 [Gilligan et al. 1997] 引入 了 IPV6_ADDRFROM 套 接 字 
选项 ， 它 能 够 返回 一 个 套 接 字 摘 述 符 ， 或 者 潜在 地 改变 与 一 个 套 接 字 
关联 的 地 址 族 。 然 而 这 个 套 接 字 选 项 的 语义 从 未 完整 地 说 明 过 ， 而 且 
它 仅 仅 在 非常 特定 的 若干 情况 下 才 有 用 ， 这 个 API 的 下 一 个 修订 本 于 
是 把 它 删 除 掉 了 。 
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12.6 ^A 


XU EL EBUIPveRE AS ds PEHEHR AS TIPA, RERA 1 IPv6 
客 尸 。IPV4 客 户 发 送 给 这 种 服务 器 的 仍然 是 IPv4 数 据 报 ， 不 过 服务 器 
的 协议 栈 会 把 客户 主机 的 地 址 转换 成 一 个 IPv4 映 射 的 IPv6 地 址 ， 因 为 
IPv6 服 务 器 仅仅 处 理 IPv6 套 接 字 地 址 结构 。 


类 似 地 ， 双 栈 主 机 上 的 IPv6 客 户 能 够 和 IPv4 服 务 器 通信 。 客 户 的 
解析 器 会 把 服务 器 主机 所 有 的 A 记录 作为 IPv4 映 射 的 IPv6 地 址 返回 给 客 
户 ， 而 客户 指定 这 些 地 址 之 一 调用 connect 将 会 使 双 栈 发 送 一 个 IPv4 
SYN 分 节 。 只 有 少量 特殊 的 客户 和 服务 器 需要 知道 对 端 使 用 的 具体 协 
iX (例如 FTP) ， 而 IN6_IS_ADDR_V4MAPPED 宏 可 用 于 判定 对 端 是 
否 在 使 用 IPv4。 


习题 


12.1 在 一 个 运行 Pv4 和 IPv6 的 双 栈 主机 上 启动 一 个 IPv6 的 FTP 客 

户 。 连 接 到 一 个 IPv4 的 FTP 服 务 器 ， 人 确保 客户 处 于 主动 (active) 模式 

(也 许 得 发 出 passive 命 令 以 天 闭 被 动 模式 ) ， 发 出 debug 命 令 ， 然 

后 是 dir 命 令 。 然 后 对 一 个 IPv6 的 FTP 服 务 器 执行 同样 的 操作 ， 比 较 由 
dir 命 令 引 发 的 两 个 PORT 指令 。 


12.2 ”编写 一 个 程序 ， 它 需要 一 个 IPv4 点 分 十 进 制 数 串 地 址 作为 
唯一 的 命令 行 参 数 。 它 创建 一 个 IPv4 的 TCP 套 接 字 ， 并 把 这 个 地 址 和 
某 个 端 号 口 ( 壁 如 9999) 捆绑 到 该 套 接 字 ， 接 着 调用 listen， 人 然后 
就 是 pause。 编 写 类 似 的 另 一 个 程序 ， 它 的 唯一 命令 行 参数 是 一 个 
IPv6 的 十 六 进 制 数 串 地 址 ， 而 且 创建 的 是 IPv6 的 TCP 监 听 套 接 字 。 以 
通 配 地 址 作为 参数 启动 编写 的 IPv4 程 序 。 然 后 在 另 一 个 窗口 中 以 IPv6 
通 配 地 址 作为 参数 启动 编写 的 IPv6 程 序 。 在 IPv4 程 序 已 经 绑 定 一 个 端 
口 的 前 提 下 ， 你 能 启动 捆绑 同一 个 端口 号 的 IPv6 程 序 吗 ? 
SO_REUSEADDR 套 接 字 选项 会 有 所 帮助 吗 ? 如 果 先 启动 ITPv6 程 序 ， 再 
党 试 启动 TPv4 程 序 ， 又 是 什么 情况 ? 
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第 13 章 ”守护 进程 和 inetd 超 级 服 
25 8t 


13.1 概述 


守护 进程 (daemon) 是 在 后 台 运 行 且 不 与 任何 控制 终端 关联 的 进 
程 。Unix 系 统 通 前 有 很 多 守护 进程 在 后 台 运 行 〈 约 在 20 全 50 个 的 量 
级 ) ， 执 行 不 同 的 管理 任务 。 


守护 进程 没有 控制 终端 通常 源 于 它们 由 系统 初始 化 脚本 启动 。 然 
而 守护 进程 也 可 能 从 某 个 终端 由 用 户 在 shell 提 示 符 下 键入 命令 行 启 
动 ， 这 样 的 守护 进程 必须 亲自 脱离 与 控制 终端 的 关联 ， 从 而 避免 与 作 
业 控制 、 终 端 会 话 管理 、 终 端 产 生 信号 等 发 生 任何 不 期 望 的 交互 ， 也 
可 以 避免 在 后 台 运 行 的 守护 进程 非 预期 地 输出 到 终端 。 


守护 进程 有 多 种 局 动 方法 。 


(1) 在 系统 局 动 阶段 ， 许 多 守护 进程 由 系统 初始 化 脚本 启动 。 这 些 
脚本 通常 位 于 /etc 目 录 或 以 /etc/rc 开 头 的 某 个 目录 中 ， 它 们 的 具 
体位 置 和 内 容 却 是 实现 相关 的 。 由 这 些 脚 本 局 动 的 守护 进程 一 开始 时 
拥有 超级 用 户 特权 。 


有 大 干 个 网 络 服务 器 通常 从 这 些 脚本 局 动 : inetd 超 级 服务 器 
( 见 下 一 条 ) 、Web 服 务 器 、 邮 件 服务 器 (经 常 是 sendmail) 。 我 
ee IUOS 由 某 个 系统 初始 化 脚本 
FI ? 
363 
(2) 许多 网 络 服务 器 由 将 在 本 章 靠 后 介绍 的 Inetd 超 级 服务 器 局 
动 。inetd 目 身 由 上 一 条 中 的 某 个 脚本 启动 。 inetd 监 听 网 络 请 求 


(Telnet ` FIPS) ， 每 当 有 一 个 请 求 到 达 时 ， 启 动 相应 的 实际 服务 器 
(Telnet 服 务 器 、FTP 服 务 器 等 ) 。 


(3) cron 守 护 进 程 按 照 规 则 定期 执行 一 些 程序 ， 而 由 它 启 动 执行 
a °c Cron 上 自身 由 第 1 条 局 动 方法 中 的 某 个 
脚 iB E 


(4) at 命令 用 于 指定 将 来 某 个 时 刻 的 程序 执行 。 这 些 程序 的 执行 
时 刻 到 来 时 ， 通 常 由 cron 守 护 进程 启动 执行 它们 ， 因 此 这 些 程序 同样 
作为 守护 进程 运行 。 


(5) 守护 进程 还 可 以 从 用 户 终端 或 在 前 台 或 在 后 台 局 动 。 这 么 做 往 
往 是 为 了 测试 守护 程序 或 重 局 因 某 种 原因 而 终止 了 的 某 个 守护 进程 。 


因为 守护 进程 没有 控制 终端 ， 所 以 当 有 事 发 生 时 它们 得 有 输出 消 
息 的 某 种 方法 可 用 ， 而 这 些 消息 既 可 能 是 普通 的 通告 性 消息 ， 也 可 能 
是 需 由 系统 管理 员 处 理 的 紧急 事件 消 居 。sysl0g 函 数 是 输出 这 些 消 
息 的 标准 方法 ， 它 把 这 些 消息 发 送 给 sys1l0gd 守 护 进 程 。 


13.2 ”syslogd 守 护 进程 


Unix 系 统 中 的 sys1ogd 守 护 进 程 通常 由 某 个 系统 初始 化 脚本 启 
动 ， 而 且 在 系统 工作 期 间 一 直 运 行 。 源 目 Berkeley 的 sys1logd 实 现在 
局 动 时 执行 以 下 步骤 。 


(1) 读 取 配置 文件 。 通 常 为 /etc/sys1log,conf 的 配置 文件 指定 
本 守护 进程 可 能 收取 的 各 种 日 志 消息 (log message) 应 该 如 何 处 理 。 
这 些 消息 可 能 被 添加 到 一 个 文件 (/dev/console 文 件 是 一 个 特例 ， 
它 把 消息 写 到 控制 台 上 ) ， 或 被 写 到 指定 用 户 的 登录 窗口 ( 若 该 用 户 
已 登录 到 本 守护 进程 所 在 系统 中 ) ， 或 被 转 发 给 男 一 个 主机 上 的 
syslogd 进 程 。 


(2) 创建 一 个 Unix 域 数据 报 套 接 字 ， 给 它 捆绑 路 径 
%/var/run/log (在 某 些 系 统 上 是 /dev/10g) ° 


(3) 创建 一 个 UDP 套 接 字 ， 给 它 捆绑 端口 514 (syslog 服 务 使 用 的 
端口 号 ) 


(4) 打开 路 径 名 /dev/klog。 来 自 内 核 中 的 任何 出 错 消息 看 着 像 
是 这 个 设备 的 输入 。 


此 后 sys1logd 守 护 进 程 在 一 个 无 限 循 环 中 运行 : 调用 select 以 
等 待 它 的 3 个 描述 符 (分 别 来 自 上 述 第 、 第 3 和 第 4 步 ) 之 一 变 为 可 
读 ， 读 入 日 志 消 息 ， 并 按照 配置 文件 进行 处 理 。 如 果 守 护 进 程 收 到 
SIGHUP 信 号 ， 那 就 重新 读 取 配置 文件 。 
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通过 创建 一 个 Unix 域 数据 报 套 接 字 ， 我 们 就 可 以 从 目 己 的 守护 进 
程 中 通过 往 syslogd 绑 定 的 路 径 名 发 送 我 们 的 消息 达到 发 送 日 志 消 居 
的 目的 ， 然 而 更 简单 的 接口 是 使 用 将 在 下 一 节 讲解 的 syslog 函 数 。 
另外 ， 我 们 也 可 以 创建 一 个 UDP 和 套 接 字 ， 通 过 往 环 回 地 址 和 端口 514 发 
ERINA ASA I AZ 35 HRS ALT] HERI o 


较 新 的 syslogd 实 现 禁 止 创建 UDP 套 接 字 ， 除 非 管理 员 明 确 要 求 。 
如 此 改变 的 理由 在 于 : 允许 任何 进程 往 这 个 套 接 字 发 送 UDP 数据 报 会 
让 系统 易 遭 拒绝 服务 攻击 ， 其 文件 系统 可 能 被 填 满 〈 例 如 通过 十 满 日 
志文 件 达到 目的 ) ， 来 自 合 法 进程 的 日 志 消息 可 能 被 排挤 掉 (例如 通 
过 溢出 syslogd 的 套 接 字 接收 缓冲 区 达到 目的 ) 。 


sys1logd 的 各 种 实现 之 间 存 在 差异 。 举 例 来 说 ， 源 自 Berkeley 的 
实现 使 用 Unix 域 套 接 字 ， 而 System V 的 实现 使 用 基于 流 的 日 志 了 驱动 程 
序 。® 源 自 Berkeley 的 各 种 不 同 实 现 给 Unix 域 套 接 字 使 用 的 路 径 名 也 不 
尽 相 同 。 如 果 使 用 syslog 汞 数 ， 我 们 就 可 以 忽略 所 有 这 些 细 市 。 
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既然 守护 进程 没有 控制 终端 ， 它 们 就 不 能 把 消息 fprintf 到 
stderr 上 。 从 守 扩 进程 中 登记 消 筷 的 钊 用 技巧 殉 是 调用 sys10g 画 


T o 


#include <syslog.h> 


void syslog(int priority, const char *message, ... 


本 函数 最 初 是 为 BSD 系 统 开 发 的 ， 不 过 如 今 几 乎 所 有 Unix 厂 商都 
有 提供 。POSIX 规 范 对 sys1log 的 说 明 与 本 节 所 述 相符 。REFC 316423 
出 了 BSD 上 sys1log 协 议 的 文档 。 


本 函数 的 priority 参 数 是 级 别 (level) 和 设施 (facility) 两 者 的 组 
合 ， 分 别 如 图 13-1 和 图 13-2 所 示 。RFC 3164 还 有 关于 该 参数 的 额外 细 
条 。message 参 数 类 似 printf 的 格式 串 ， 不 过 增设 了 %m 规 范 ， 它 将 被 
蔡 换 成 与 当前 errno 值 对 应 的 出 错 消息 。message 参 数 的 末尾 可 以 出 现 
一 个 换行 符 ， 不 过 并 非 必 需 。 
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如 图 13-1 所 示 ， 日 志 消 息 的 level 可 以 是 0~7， 它 们 是 按 从 高 到 低 


的 顺序 排列 的 。 如 有 果 发 送 者 未 指定 jevel! 值 ， 那 惑 默认 为 
LOG NOTICE ° 


fe 


LOG_EMERG 
LOG ALERT 
LOG CRIT 


系统 不 可 用 “最 高 优先 级 ) 
必须 立即 采取 行动 

临界 条 件 

th tu ett 

警告 条 件 

正常 然而 重要 的 条 件 〈 黑 认 值 ) 
通告 消息 

调试 级 消息 “最 低 优先 级 》 


LOG_ERR 
LOG WARNING 
LOG NOTICE 
LOG INFO 
LOG_DEBUG 


“SA d OO 


图 13-1 日 志 消 息 的 level 


日 志 消 息 还 包含 一 个 用 于 标识 消息 发 送 进程 类 型 的 facility。 图 13- 
2 列 出 了 facility 的 各 种 值 。 如 果 发 送 者 未 指定 faciliy 值 ， 那 就 默认 为 
LOG USER ° 


LOG AUTH 安全 /授权 消息 

LOG AUTHPRIV TERRE MH) 
LOG CRON cron 守 护 进 程 

LOG DAEMON 系统 守护 进程 

LOG FTP FTP 守 护 进 程 

LOG_KERN 内 核 消息 

LOG LOCALO 本 地 使 用 

LOG_LOCRL1 本 地 使 用 

LOG LOCAL2 本 地 使 用 

LOG LOCAL3 本 地 使 用 

LOG_LOCALA 本 地 使 用 

LOG_LOCALS 本 地 使 用 

LOG LOCAL6 本 地 使 用 

LOG LOCAL? 本 地 使 用 

LOG LPR 行 式 打印 机 系统 
LOG_MAIL 邮件 系统 

LOG NEWS 网 络 新 闻 系 统 

LOG SYSLOG 由 syslogd 内 部 产生 的 消息 
LOG_USER 任意 的 用 户 级 消息 《默认 ) 
LOG UUCP UUCP 系 统 


图 13-2 日 志 消 息 的 facility 


举例 来 说 ， 当 rename 函 数 调用 意外 失败 时 ， 守 护 进程 可 以 执行 
以 下 调用 : 


syslog(LOG INFO|LOG LOCAL2, "rename(%s, %S): %m", file1, file2); 


facility 和 level 的 目的 在 于 ， A YS lod conf 文 件 中 统 
一 配置 来 目 同一 给 定 设 施 的 所 有 消息 ， 或 者 统一 配置 具有 相同 级 别 的 
所 有 消息 。 举 例 来 说 ， 该 配置 文件 可 能 售 有 以 下 两 行 : 


kern.* /dev/console 
local7.debug /var/log/cisco.log 
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这 两 行 指定 所 有 内 核 消 息 登 记 到 控制 台 ， 来 自 1ocal17 设 施 的 所 
有 debug 消 息 添加 到 文件 /var/ log/cisco. loghiKE ° 


当 syslog 被 应 用 进程 目次 调用 时 ， 它 创建 一 个 Unix 域 数据 报 套 
接 字 ， 然 后 调用 connect 连 接 到 由 syslogd 守 护 进 程 创建 的 Unix 域 数 
据 报 套 接 字 的 众所周知 路 径 名 (譬如 /var/run/10g) 。 这 个 套 接 字 
一 直 保持 打开 ， 直 到 进程 终止 为 止 。 作 为 蔡 换 ， 进 程 也 可 以 调用 
openlogfilcloselog ° 


#include <syslog.h> 


void openlog(const char *ident, int options, int facility); 


void closelog(void); 


open1log 可 以 在 首次 调用 syslog 前 调用 ，close1log 可 以 在 应 
用 进程 不 再 需要 发 送 日 志 消 息 时 调用 。 


ident XIUe— Hsyslogw T 8E HB BIBJAE NR TT 
的 值 通 常 是 程序 名 。®% 


options 人 参数 由 图 13-3 所 示 的 一 个 或 多 个 毅 值 的 逻 和 加 或 构成 。 


options 说 LI 


LOG CONS 若 无 法 发 送 到 syslogs 和 守护 进程 则 登记 到 控制 台 


LOG NDBLAY RIRIH SERV OES 


LOG PSRROR BERI S syslogasTiP I 7E, MGIC PARNER de 


LOG ID 是 每 个 日 志 消 总 登记 进程 ID 


图 13-3 open1og 的 options 


openlog 被 调用 时 ， 通 常 并 不 立即 创建 Unix 域 套 接 字 。 相 反 ， 该 
僚 接 字 直 到 首次 调用 sys1log 时 才 打 开 。L0G_NDELAY 远 项 迫使 该 套 
接 字 在 open1og 被 调用 时 就 创建 。 


open1log 的 focility 人 参数 为 没有 指定 设施 的 后 续 sys1og 调 用 指定 
一 个 默认 值 。 有 些 守 护 进 程 通过 调用 open1og 指 定 一 个 设施 (对 于 一 
个 给 定 守 护 进程 ， 设 施 通常 不 变 ) ， 然 后 在 每 次 调用 syslog 时 只 指 
定 级 别 (因为 级 别 可 随 错 误 性 质 改 变 ) o 


志 消 息 也 可 以 由 logger 命 令 产 生 。 举 例 来 说 ，logger 命 令 可 
用 在 shell 脚 本 中 以 向 syslogd 发 送 消 息 。 


13.4 daemon init HA 


图 13-4 给 出 了 名 为 daemon_init 的 函数 ， 通 过 调用 它 (通常 从 服 
务 器 程序 中 ) ， 我 们 能 够 把 一 个 普通 进程 转变 为 守护 进程 。 该 函数 在 
所 有 Unix 变 体 上 都 应 该 适合 使 用 ， 不 过 有 些 Unix 变 体 提 供 一 个 名 为 
daemon 的 C 库 函数 ， 实 现 类 似 的 功能 。BSD 和 Linux 均 提供 这 个 
daemonEX 2X ° 
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litvelaemion_inil.c 


Lo$include *unp.h" 
2 finclude <sysloc ,n> 


3 $Jefine MAXFD €4 


4 extern int dasmen proc; J* de-ined in srror.c */ 
5 int 
6 daemon init(corst char *pname, int facility! 
= M 
Li Lu i; 
9 pid t pis: 
10 i£ ( (pid - Pork) < 9) 
1- return [-1); 
12 elsa if ipid) 
13 exit (C; ż /*" parent terminates */ 
14 /* child 1 continues... */ 
if (setsidi! < 0) /* become session leader */ 
16 return (-1); 
上 了 Signal (SIGHUP, SIG IGNI; 
18 it ( (pid = ForkK(i) « 9) 
19 return (-1), 
20 elss if ipid) 
21. exit (lu); /* child 1 terrinates */ 
22 /* child 2 continues... */ 
23 daevou_pree = 1; /* for exr XMX() functions */ 
24 ehdirí(*/*); /* change working directory */ 
25 /* Slcse of? fils descriptors */ 
z6 fcr (i = J; i < MARTO; i++! 
27 close(i!; 
28 /* redirect stdin, stdout, and stderr to /dev/rull */ 
29 ozen;"/dev/null", C RDONLY); 
30 ozen;"/dev/null", Z 3DWR!; 
3t open!"/dev/null", O_RDWR); 
22 open] og (aem , LOG PTD, Fecilit yi? 


33 return (0); /* success */ 


likidazmon inii.c 


图 13-4 daemon init/XZ&: 守护 进程 化 当前 进程 
fork 


10-13 ”首先 调用 fork， 然 后 终止 父 进程 ， 留 下 子 进程 继续 运 
行 。 如 果 本 进程 是 从 前 台 作 为 一 个 shell 命 令 局 动 的 ， 当 父 进程 终止 
时 ，shell 吏 认为 该 命令 已 执行 完毕 。 这 样子 进程 束 目 动 在 后 台 和 运行。 
另外 ， 子 进程 继承 了 父 进 程 的 进程 组 ID， 不 过 它 有 自己 的 进程 ID 。 这 
pu. dunque are ， 这 是 接 下 去 调用 setsid 的 
必要 条 件 。 


setsid 


15-16 setsid 是 一 个 POSIX 函 数 ， 用 于 创建 一 个 新 的 会 话 
(session) ° (APUE 第 9 章 详 细 讨 论 进程 关系 和 会 话 。) 当前 进程 变 
ATE 会 话 的 会 话 头 进程 以 及 新 进程 组 的 进程 组 头 进 程 ， 从 而 不 再 有 欣 
| 终 靖 


忽略 STGHUP 信 号 并 再 次 fork 


17-21 忽略 STGHUP 信 号 并 再 次 调用 fork。 该 玉 图 数 退 回 时 ， 
进程 实际 上 是 上 一 次 调用 fork 产 生 的 子 进程 ， 它 被 终止 掉 ， WES 
子 进 程 继续 运行 。 再 次 fork 的 目的 是 确保 本 守护 进程 将 来 即使 打开 了 
一 个 终端 设备 ， 也 不 会 自动 获得 控制 终端 ?” 当 没有 控制 终 3 mEJ—^ 
话 头 进程 打开 一 个 终端 设备 时 (该 终端 不 全 是 当前 某 个 其 他 会 话 的 控 
制 终端 ， 该 终端 上 自动 成 为 这 个 会 话 头 进程 的 控制 终端 o 然而 再 次 调 
用 fork 之 后 ， 我 们 确保 新 的 子 进程 不 再 是 一 个 会 话 头 进程 ， 从 而 不 能 
自动 获得 一 个 控制 终端 。 这 里 必须 忽略 SIGHUP 信 号 ， 因 为 当 会 话 头 
进程 〈 即 首次 fork 产 生 的 子 进程 ) 终止 时 ， Re 话 中 的 所 有 进程 (BD 
再 次 fork 产 生 的 子 进程 ) 都 收 到 SIGHUP 信 和 号 


为 错误 处 理 画 数 设置 标识 


23 把 全 局 变 量 daemon_proc 置 为 非 值 这 个 外 部 变量 由 我 们 
HJerr XXXEÉRZX (D.477) 定义 ， 
sys1og， 以 取代 fprintf 到 标准 错误 输出 。 量 省 得 我 们 从 头 到 
尾 修 改 程序 代码 ， 在 服务 器 不 (例如 测试 
服务 器 程序 时 ) 调用 某 个 错误 处 理 函 数 ， 在 服务 器 作为 守护 进程 运行 
的 场合 调用 sys1og 。 


改变 工作 目录 


24 把 工作 目录 改 到 根 目录 ， 不 过 有 些 守 护 进程 男 有 原因 需 改 到 
其 他 某 个 目 隶 。 举 例 来 说 ， 打 印 机 守护 进程 可 能 改 到 打印 机 的 假 脱 机 
处 理 (spool) 目录 ， 因 为 那里 是 它 做 全 部 工作 的 地 方 。 要 是 守护 进程 
产生 了 某 个 core 文 件 ， 该 文件 束 存 放 在 当前 工作 目录 中 。 改 变 工作 目 
杂 的 男 一 个 理由 是 ， 守 护 进 程 可 能 是 在 某 个 任意 的 文件 系统 中 启动 ， 


如 果 仍 然 在 其 中 ， 那 么 该 文件 系统 就 无 法 拆 乞 (unmounting) ， 除 非 
使 用 潜在 破坏 性 的 强制 措施 。 


关闭 所 有 打开 的 描述 符 


25-27 ”关闭 本 守护 进程 从 执行 它 的 进程 (通常 是 一 个 shell) 继 
承 来 的 所 有 打开 看 的 描述 符 。 问 题 是 怎样 检测 正在 使 用 的 最 大 描述 
T: 没有 现成 的 Unix 函 数 提供 该 值 。 检 测 当前 进程 能 够 打开 的 最 大 摘 
述 符 数 目 目 有 办 法 ， 然 而 由 于 这 个 限制 可 以 是 无 限 的 ， 这 样 的 监测 也 
变 得 复杂 起 来 (参见 APUE 第 43 页 ) 。 我 们 的 解决 办 法 是 干脆 关闭 前 
64 个 描述 符 ， 即 使 其 中 大 部 分 可 能 并 没有 打开 。 
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Solaris 提 供 了 一 个 名 为 closefrom 的 函数 ， 可 用 于 解决 守护 进程 
的 这 个 问题 。 


将 stdin、stdout 和 stderr 重 定向 到 /dev/null 


29-31 打开 /dev/null 作 为 本 守护 进程 的 标准 输入 、 标 准 输出 
和 标准 错误 输出 。 这 一 点 保证 这 些 常 用 描述 符 是 打开 的 ， 针 对 它们 的 
read 系 统 调用 返回 0 (EOF) ，write 系 统 调用 则 由 内 核 丢 弃 所 写 数 
据 。 打 开 这 些 描述 符 的 理由 在 于 ， 守 护 进程 调用 的 那些 假设 能 从 标准 
输入 读 或 者 往 标准 输出 或 标准 错误 输出 写 的 库 函 数 将 不 会 因 这 些 描述 
符 未 打开 而 失败 。 这 种 失败 是 一 种 隐患 。 要 是 一 个 守护 进程 未 打开 这 
些 描述 符 ， 却 作为 服务 器 打开 了 与 某 个 客户 关联 的 一 个 套 接 字 ， 和 那么 
这 个 套 接 字 很 可 能 占用 这 些 描述 符 ( 壁 如 标准 输出 或 标准 错误 输出 的 
描述 符 1 或 2) ， 这 种 情况 下 如 果 守 护 进 程 调用 诸如 perror 之 类 画 
数 ， 那 就 会 把 非 预期 的 数据 发 送 给 那个 客户 。 


使 用 syslogd 处 理 错误 


32 调用 open1og。 其 中 第 一 个 参数 来 自 调 用 者 ， 通 常 是 程序 的 
名 字 (EEuargv[0]) 。 第 二 个 参数 指定 把 进程 ID 加 到 每 个 日 志 消 息 
中 。 第 三 个 参数 同样 由 调用 者 指定 ， 其 值 为 图 13-2 所 示 的 常 值 之 一 或 
为 0 〈 如 果 默 认 值 LOG_USER 可 接受 的 话 ) 。 


我 们 指出 ， 既 然 守 护 进程 在 没有 控制 终端 的 环境 下 运行 ， 它 绝 不 
会 收 到 来 自 内 核 的 SIGHUP 信 号 。 许多 守护 进程 因此 把 这 个 信 H STE 
来 目 系 统管 理 员 的 一 个 通知 ， 表 示 其 配置 文件 已 发 生 改 动 ， 守 护 进程 
应 该 重新 读 入 其 配置 文件 。 和 守护 进程 同样 绝 不 会 收 到 来 目 内 核 的 
SIGINT 信 号 和 SIGWINCH 信 号 ， 因 此 这 些 信号 也 可 以 安全 地 用 作 系 统 
管理 员 的 通知 手段 ， 指 示 守 护 进 程 应 做 出 反应 的 某 种 变动 已 经 发 生 。 


例子 :作为 守护 进程 运行 的 时 间 获 取 服 务 器 程序 


图 13-5 修 改 自 图 11-14 中 的 协议 无 关 时 间 获 取 服 务 器 程序 ， 它 调用 
我 们 的 daemon_init 画 数 以 作为 守护 进程 运行 。 


inieid davtimetcpsrv2.c 


1 include "ur:p.h" 
2 finclude <time, n> 


3 int 
4 mainiint args. char **argv! 


6 int listenfd, connfd; 

7 sccklen t zdcrlen, len; 
8 S.rac.- sockaüdr *cliaddr; 
9 char buff [MAXLIHN&]; 

0 


1 tims = ticks; 

11 if (argc < 2 | arge > 3) 

12 err zuití("usage: daytimetcpsrv2 [ «host» ] <service or ports"); 
13 daemon init(ar-v[u], 0!; 

14 iE (arqc == 3; 

15 listenfd = Tcp listen(NULL, argv(1]. &sdirle2); 

16 else 

17 listsntd ~ Tcp listen(argv[1], argv[2,, Saddrien'; 

18 cliaddr =- Malisc{addrlent ; 

15 fcr (; ; 1 

20 ler. = addrlen; 

i comnfd = Accep-ilisterfz, cliaddr, picis 

22 ezr msa["connection fron ts", Sock_ntopicliaddr, ler); 

23 ticks = tire (NULL) ; 

24 enprinci (buff, sizeof(buff)], "t.24e\r\n", ctimeluticks)); 
es Wratc(conntd, bust, Strleni butt!) : 

26 Close (conned) ; 

j7 1 

a7 i 

23) } 


meid/daytimeicpsrv.c 


图 13-5 ”作为 守护 进程 运行 的 协议 无 关 时 间 获 取 服 务 器 程序 


改动 的 地 方 只 有 两 个 ， 在 程序 开始 执行 处 尽早 调用 我 们 的 
daemon_init 函 数 ， 再 把 输出 客户 IP 地 址 和 端口 号 的 printf 改 为 调 
用 我 们 的 err_msg 函 数 。 事 实 上， 如 果 想 要 一 个 程序 作为 守护 进程 运 
行 ， 我 们 就 得 避免 调用 诸如 printf 和 fprintf 之 类 函数 ， 改 而 调用 
我 们 的 err_msg 函 数 。 


注意 在 调用 daemon_init 之 前 我 们 是 如 何 检 查 argc 并 输出 合适 
的 用 法 消 电 的 。 这 么 做 使 得 启动 本 守护 进程 的 用 户 一 旦 提供 数目 不 正 
确 的 命令 行 参 数 就 能 立即 得 到 反馈 。 调 用 daemon_init 之 后 ， 所 有 后 续 
出 错 消 息 进 入 syslog， 不 再 有 作为 标准 错误 和 输出 的 控制 终端 可 用 。 


如 果 先 在 主机 Linux 上 运行 本 程序 ， 再 从 同一 个 主机 进行 连接 
(譬如 指定 连接 到 localhost) ， 然 后 检查 /var/adm/messages 文 件 
(设施 为 LO6_USER 的 消息 都 发 送 到 该 文件 ) ， 就 可 能 找到 类 似 如 下 
的 日 志 消息 : 


Jun 10 09:54:37 linux daytimetcpsrv2[24288]: 


connection from 127.0.0.1.55862 


(本 行 太 长 已 做 折 行 处 理 。) 其 中 日 期 、 时 间 和 主机 名 由 
syslogd FIA B T BB BI 


13.5 inetd 守 护 进 程 


典型 的 Unix 系 统 可 能 存在 许多 服务 器 ， 它 们 只 是 等 待 客户 请 求 的 
到 达 ， 例 如 FTP、Telnet、Rlogin、TFTP 等 等 。4.3BSD 面 世 之 前 的 系统 
中 ， 所 有 这 些 服务 都 有 一 个 进程 与 之 关联 。 这 些 进 程 都 是 在 系统 自 举 
阶段 从 /etc/rc 文 件 中 启动 ， 而 且 每 个 进程 执行 几乎 相同 的 启动 任 
务 : 创建 一 个 套 接 字 ， 把 本 服务 器 的 众所周知 端口 捆绑 到 该 套 接 字 ， 
等 待 一 个 连接 (若是 TCP) 或 一 个 数据 报 (若是 UDP) ， 然 后 派生 子 
进程 。 子 进程 为 客户 提供 服务 ， 父 进程 则 继续 等 待 下 一 个 客户 请 求 。 
这 个 模型 存在 两 个 问题 。 


371 
(1) 所 有 这 些 守 护 进程 含有 几乎 相同 的 局 动 代码 ， 既 表现 在 创建 套 
接 字 上 ， 也 表现 在 演变 成 守护 进程 上 《类似 我 们 的 daemon_init 画 


数 ) 。 


(2) 每 个 守护 进程 在 进程 表 中 占据 一 个 表 项 ， 然 而 它们 大 部 分 时 间 
处 于 睡眠 状态 。 


4.3BSD 版 本 通过 提供 一 个 因特网 超级 服务 器 ( 即 ijnetd 守 护 进 
程 ) 使 上 述 问 题 得 到 简化 。 基 于 TCP 或 UDP 的 服务 器 都 可 以 使 用 这 个 
守护 进程 。 它 是 这 样 解决 上 述 两 个 问题 的 。 


(1) 通过 由 inetd 处 理 普通 守护 进程 的 大 部 分 启动 细节 以 简化 守护 

fares 。 这 么 一 来 每 个 服务 器 不 再 有 调用 daemon_init 画 数 的 
(2) 单个 进程 (inetd) 就 能 为 多 个 服务 等 待 外 来 的 客户 请 求 ， 以 

此 取代 每 个 服务 一 个 进程 的 做 法 。 这 么 做 减少 了 系统 中 的 进程 总 数 。 


inetd 进 程 使 用 我 们 随 daemon_init 画 数 讲解 的 技巧 把 自己 演 
变 成 一 个 守护 进程 。 它 接着 读 入 并 处 理 自己 的 配置 文件 。 通 常 
是 /etc/inetd.conf 的 配置 文件 指定 本 超级 服务 器 处 理 哪些 服务 以 


BS ROSWOREIERTRS AM BOCE E Ben 
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service-name 必须 在 /etc/services 文 件 中 定义 
socket-type stream (X] TCP) 或 6gram“ 对 于 UPDP) 
protocol 必须 在 /et a/protacol sto | eM: tcbp 或 ap 


wait-flag 对 于 TCP 一 般 为 nowait， 对 于 UDP 一 般 为 wait 
login-name Jc 5 /etc/passwall' HP 4. —MH root 
server-program UJ execciiEIn oc TR 


server-program-arguments 调用 =xec 省 定 的 命令 行 参 数 


图 13-6 inetd.conf 文 件 中 的 字段 


下 面 是 inetd.conf 文 件 中 作为 例子 的 若干 行 : 


ftp stream tcp nowait root /usr/bin/ftpd ftpd - 
1 
telnet stream tcp nowait root /usr/bin/telnetd 
telnetd 
i stream tcp nowait root /usr/bin/rlogind 


udp wait nobody /usr/bin/tftpd tftpd 


-s /tftpboot 


当 inetd 调 用 exec 执 行 某 个 服务 器 程序 时 ， 该 服务 器 的 真实 名 字 
总 是 作为 程序 的 第 一 个 参数 传递 。 


图 13-6 及 其 示例 行 仅仅 是 例子 而 已 。 许 多 厂商 为 inetd 自 行 增设 
了 新 的 特性 。 例 如 在 TCP 服 务 器 和 UDP 服务 器 之 外 ， 添 加 处 理 RPC 服 
务 器 的 能 力 ， 又 如 在 TCP 和 UDP 之 外 ， 添 加 处 理 其 他 协议 的 能 力 。 另 
外 ， 调 用 exec 指 定 的 路 径 名 和 服务 器 的 命令 行 参数 也 取决 于 实现 。 
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waitfag 字 段 可 能 易于 混淆 。 总 的 来 说 ， 它 指定 由 inetd 启 动 的 
守护 进程 是 否 有 意 接管 与 之 关联 的 监听 套 接 字 。UDP 服 务 没有 分 离 的 
监听 套 接 字 和 接受 套 接 字 ， 因 此 几乎 总 是 配置 成 wait。TCP 服 务 既 支 


持 wait 也 支持 nowait， 上 有 具体 取 决 于 守护 程序 的 开发 人 员 ， 不 过 
nowait 更 为 常见 。 


IPV6 与 /etc/inetd.conf 的 交互 取决 于 各 个 厂商 的 实现 ， 并 要 
求 特 别 天 注 其 中 的 细 方 。 有 些 三 商 使 用 名 为 tcp6 或 udp6 的 protocol 字 
段 表示 应 为 相应 服务 创建 一 个 IPv6 套 接 字 。 有 些 厂 商 使 用 名 为 tcp46 
或 udp46 的 protocol 字 段 表 示 相 应 服务 希望 所 创建 的 套 接 字 同 时 支持 
IPv6 客 户 和 IPv4 客 户 。 这 些 特殊 协议 名 通常 不 出 现 
在 /etc/protocols 文 件 中 。 


图 13-7 展 示 了 inetd 和 守护 进程 的 工作 流程 。 


socket ') 


WAPHE fect finetd.canf 


交 件 中 列 出 的 服务 


listen{} 


【如果 是 'TCP 套 按 字 ) 


selecti) 


fru REF 


accept Í} 


《 旭 果 是 TCP 套 接 字 ) | 


close 除 套 接 字 . 之 外 
ABT Aaa 


close E EE EE 
( 如 果 是 TCP ) 


SRR rb Tao 
Sid f go. DR, 
然后 cloge 原 套 接 字 


setgid() 
geLuidt) 


( 如果. 个 是 =ocz ) 


exei) 最 备 器 程序 


图 13-7 inetd 的 工作 流程 


(1) 在 启动 阶段 ， 读 入 /etc/inetd.conf 文 件 并 给 该 文件 中 指定 
的 每 个 服务 创建 一 个 适当 类 型 ( 字 节 流 或 数据 报 ) 的 套 接 字 。inetd 
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数目 。 痢 创建 的 每 个 父 接 字 都 被 加 入 将 由 某 个 select 调 用 使 用 的 一 


个 摘 述 符 集 中 。 


(2) 为 每 个 套 接 字 调用 bind， 指 定 捆 绑 相 应 服务 器 的 众所周知 端 
口 和 通 配 地 址 。 这 个 TCP 或 UDP 端口 号 通过 调用 getservbyname 获 
得 ， 作 为 画 数 参数 的 是 相应 服务 絮 在 配置 文件 中 的 service-name 字 上段 和 


protocol 字 段 。 


(3) 对 于 每 个 TCP 套 接 字 ， 调 用 1isten 以 接受 外 来 的 连接 请 求 。 
对 于 数据 报 套 接 字 则 不 执行 本 步骤 。 


(4) 创建 完毕 所 有 套 接 字 之 后 ， 调 用 select 等 待 其 中 任何 一 个 套 
接 字 变 为 可 读 。 回 顾 6.3 节 ， 我 们 知道 TCP 监 听 套 接 字 将 在 有 一 个 新 连 
接 准 备 好 可 被 接受 时 变 为 可 读 ，UDP 套 接 字 将 在 有 一 个 数据 报到 达 时 
变 为 可 读 。inetd 的 大 部 分 时 间 花 在 阻塞 于 select 调 用 内 部 ， 等 待 
某 个 套 接 字 变 为 可 读 。 


(5) 当 select 返 回 指出 某 个 套 接 字 已 可 读 之 后 ， 如 采 该 套 接 字 是 
一 个 TCP 套 接 字 ， 而 且 其 服务 器 的 wait-flag 值 为 Nowait， 那 束 调 用 
accept 接 受 这 个 新 连接 。 


(6) ijnetd 和 守护 进程 调用 fork 派 生 进 程 ， 并 由 子 进 程 处 理 服务 请 
求 。 这 一 点 类 似 标准 的 并 发 服务 器 (4.877) 。 


子 进程 关闭 除 要 处 理 的 父 接 字 描 述 符 之 外 的 所 有 描述 符 : 对 于 
TCP 服 务 器 来 说 ， 这 个 套 接 字 是 由 accept 返 回 的 新 的 已 连接 套 接 字 ， 
对 于 UDP 服务 辟 来 说 ， 这 个 套 接 字 是 父 进程 最 初创 建 的 UDP 和 奏 接 字 © 
子 进程 调用 dup2 三 次 ， 把 这 个 待 处 理 套 接 字 的 描述 符 复 制 到 描述 符 
0、1 和 2 (标准 输入 、 标 准 输出 和 标准 错误 输出 ) ， 然 后 关闭 原 套 接 字 
描述 符 。 子 进程 打开 的 描述 符 于 是 只 有 0、1 和 2。 子 进程 目标 准 输入 读 
实际 是 从 所 处 理 的 套 接 字 读 ， 往 标准 输出 或 标准 错误 输出 写实 际 上 是 
往 所 处 理 的 套 接 字 写 。 子 进程 根据 它 在 配置 文件 中 的 login-name 字 上 段 
值 ， 调 用 getpwnam 获 取 对 应 的 保密 字 文 件 表 项 。 如 果 login-name 字 段 
值 不 是 root ， 子 进程 就 通过 调用 setgid 和 setuid 把 自身 改 为 指定 
的 用 户 。 《既然 inetd 进 程 以 值 为 0 的 用 户 ID 运行 ， 其 子 进 程 将 跨 
fork 调 用 继承 这 个 用 户 ID， 因 而 能 够 变 成 所 选 定 的 任何 用 户 。) 


子 进程 然后 调用 exec 执 行 由 相应 的 server-program 字 段 指 定 的 程 
序 来 具体 处 理 请 求 ， 相 应 的 server-program-arguments 字 上 段 值 则 作为 命 
令 行 参 数 传递 给 该 程序 。 
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(7) 如 果 第 5 步 中 select 返回 的 是 一 人 TOBWLEBUT, 那么 父 进程 
必须 关闭 Ce MAENE IRA aS BREE) 。 父 进程 再 次 调 
用 select， 等 待 下 一 个 变 为 可 读 的 套 接 字 。 


让 我 们 更 仔细 地 查看 jnetd 中 发 生 的 描述 符 处 理 。 图 13- 8 展示 了 
当 有 一 个 来 自 某 个 FTP 客 户 的 新 连接 请 求 到 达 时 inetd 中 的 描述 符 。 


ins-d 
ATETCP My 121 i 
TT £ * : TCPJX E121 
` sT IA [A * ih LITE AL 
j TCP 123 等 待 变 成 可 读 的 
ie TCP £r 
Era 和 UDP 套 接 字 
TCP Hi 169 
^ N 返回 的 已 
EN PKT acccork JD 
i > iy ? tá- ^ - "Rm 
>_> IC | zm l 1 | j 连接 TY TEX $Ü 


图 13-8 ”目标 为 TCP 端 口 21 的 连接 请 求 到 达 时 的 inetd 描 述 符 


这 个 连接 请 求 指 向 TCP 端 口 21， 不 过 accept 为 它 创 建 了 一 个 新 的 
连接 套 接 字 。 


图 13-9 展 示 了 在 调用 过 fork， 并 关闭 了 除 这 个 已 连接 套 接 字 描 述 
符 之 外 的 所 有 摘 述 符 之 后 ， 子 进程 中 的 描述 符 。 
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inetd (FIERE) 


^ — 
accept RIH HIG 


到 客户 的 连接 | 
| 连接 TCP 套 接 宁 


TCP3 121 


图 13-9 ” 子 进程 中 的 jnetd 描 述 符 


下 一 步 是 于 进程 把 这 个 已 连接 套 接 字 描 述 符 复 制 到 朱 述 符 0、1 和 


2， 然 后 关闭 原 描述 符 。 图 13-10 展 示 了 此 时 的 描述 符 。 


inetd《 子 进程 》 


fd0 (标准 输入 ) 
fdl (标准 输出 》 


fd2 (标准 错误 
输出 


图 13-10 ”dup2 后 子 进程 中 的 jnetd 描 述 符 


子 进 程 接着 调用 exec。 回顾 4.7 市 ， 我 们 知道 通常 情况 下 所 有 摘 
述 符 跨 exec 保 持 打 开 ， 因 此 exec 加 载 的 实际 服务 占 程 序 使 用 描述 符 
0、1 或 2 之 一 与 客户 通信 。 服 务 器 中 应 该 只 打开 这 些 描述 符 。 
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于 TCP 服 务 这 是 典型 的 设置 ， 意 味 着 Inetd 不 必 等 竺 某 个 子 进 程 终止 
束 可 以 接受 对 于 该 子 进程 所 提供 之 服务 的 男 一 个 连接 。 如 果 对 于 某 个 
子 进 程 所 提供 之 服务 的 另 一 个 连接 确实 在 该 子 进程 终止 之 前 到 达 ， 那 
么 一 旦 父 进程 再 次 调用 select， 这 个 连接 就 立即 返回 到 父 进 程 。 前 
面 列 出 的 第 4、 第 5 和 第 6 个 步骤 再 次 被 执行 ， 于 是 派生 出 另 一 个 子 进程 
来 处 理 这 个 新 请 求 。 


给 一 个 数据 报 服务 指定 wait 标 志 导 致 父 进 程 执 行 的 步 又 发 生变 
化 。 这 个 标志 要 求 inetd 必 须 在 这 个 父 接 字 再 次 成 为 Select 调用 的 
| Ted 等 待 当前 服务 该 套 接 字 的 子 进程 终止 。 发 生 的 变化 有 
| Edo 


(1) fork 返 回 到 父 进程 时 ， 父 进程 保存 子 进程 的 进程 ID。 这 人 么 做 
使 得 父 进程 能 够 通过 查看 由 waitpid 返 回 的 值 确定 这 个 子 进程 的 终止 
时 间 。 


(2) 父 进程 通过 使 用 FD_CLR 安 关闭 这 个 套 接 字 在 select 所 用 描 
述 答 集中 对 应 的 位 ， 达 成 在 将 来 的 select 调 用 中 禁止 这 个 套 接 字 的 
目的 。 这 一 后 意味 着 子 进 程 将 接管 该 套 接 字 ， 直 到 目 喘 终止 为 止 。 


(3) 当 子 进程 终止 时 ， 父 进程 被 通知 以 一 个 SIGCHLD 信 和 号， 而 父 
进程 的 信号 处 理 函 数 将 取得 这 个 子 进 程 的 进程 ID。 父 进程 通过 打开 相 
应 的 套 接 字 在 select 所 用 描述 符 集 中 对 应 的 位 ， 使 得 该 套 接 字 重新 
成 为 select 的 候选 套 接 字 。 
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数据 报 服务 器 必须 接管 其 套 接 字 直至 自身 终止 ， 以 防 inetd 在 此 
期 间 让 select 检 查 该 套 接 字 的 可 读 性 〈 也 就 是 等 待 来自 任何 客 户 的 
另 一 个 数据 报 ) ， 这 是 因为 每 个 数据 报 服务 器 只 有 一 个 套 接 字 ， 而 不 
像 每 个 TCP 服 务 器 那样 既 有 一 个 监听 套 接 字 ， 对 于 每 个 客户 义 各 有 一 
个 已 连接 套 接 字 。 如 果 inetd 不 关闭 对 于 某 个 数据 报 套 接 字 的 可 读 条 
件 检 查 ， 而 且 父 进程 (inetd) 先 于 服务 该 套 接 字 的 子 进程 执行 ， 那 
么 引发 本 次 fork 的 那个 数据 报 仍然 在 套 接 字 接收 缓冲 区 中 ， 导 致 
select 再 次 返回 可 读 条 件 ， 致 使 inetd 再 次 fork 另 一 个 (不 必要 
HJ) 子 进 程 。inetd 必 须 在 得 知 子 进 程 已 从 套 接 字 接收 队列 中 读 走 该 
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套 接 字 的 手段 是 通过 接收 表明 子 进程 已 终止 的 SIGCHLD 信 和 号。 我 们 将 
在 22.7 市 展示 这 样 的 一 个 例子 。 


图 2-18 中 介绍 的 5 个 标准 因特网 服务 是 由 ijnetd 内 部 处 理 的 (见习 
题 13.2) 。 


既然 替 一 个 TCP 服 务 器 调用 accept 的 进程 是 inetd， 由 inetd 启 
动 的 真正 服务 器 通常 通过 调用 getpeername 获 取 客 户 的 IP 地 址 和 端口 
号 。 回 顾 图 4-18， 我 们 知道 fork 和 exec 发 生 之 后 (就 如 inetd) , 
真正 的 服务 器 获悉 客户 身份 的 唯一 方法 是 调用 getpeername。 


inetd 通 常 不 适用 于 服务 密集 型 服务 器 ， 其 中 值得 注意 的 有 邮件 
服务 器 和 Web 服 务 嚣 。 举 例 来 说 ， 我 们 在 4.8 广 介绍 过 的 sendmail 通 
常 作为 一 个 标准 的 并 发 服务 如 来 运行 。 这 种 模式 下 每 个 客户 连接 的 进 
程控 制 开销 仅仅 是 一 个 fork， 而 由 inetd 局 动 的 每 个 TCP 服 务 句 的 开 
销 是 一 个 fork 加 一 个 exec。 而 Web 服 务 器 则 使 用 多 种 技术 把 每 个 客 
尸 连接 的 进程 控制 开销 降低 到 最 小 ， 具 体 在 第 30 章 中 讨论 。 


在 Linux 等 系统 上 ， 称 为 xinetd 的 扩展 式 因特网 服务 守护 进程 业 
已 常见 。xinetd 提 供与 inetd 一 致 的 基本 服务 ， 不 过 还 提供 数目 众 
多 的 其 他 特性 ， 包 括 根据 客户 的 地 址 登记 、 接 受 或 拒绝 连接 的 选项 ， 
每 个 服务 一 个 配置 文件 的 做 法 ， 等 等 。 我 们 不 深入 讨论 xinetd， 
为 它 背 后 的 基本 超级 服务 器 概念 和 inetd 是 一 样 的 。 


13.6 daemon inetdwA 


图 13-11 给 出 了 一 个 名 为 daemon_inetd 的 函数 ， 可 用 于 已 知 由 
inetd 启 动 的 服务 器 程序 中 。 


— ——— 2 — libidaemon_inetd.c 
7 incluir "unp.h* 


4 #incluce <syslog.h> 

2 extern int daemon proc; /* Gefired in error.c */ 
4 void 

5 daemon inecd(const char tpname, int facility) 

€ | 


7 daemon proc = 1; /* for our err XXX(! functions */ 
E openlos [pnana, LOG PID, facility); 
9) 


lib/daemon inetd.c 


图 13-11 daemon inetdEZi: HEL dinetdisfrHytfe 
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本 函数 与 daemon_init 相 比 显得 微不足道 ， 因 为 所 有 守护 进程 
化 步骤 已 由 inetd 在 启动 时 执行 。 本 函数 的 任务 仅仅 是 为 错误 处 理 函 


数 (图 D-3) 设置 daemon_proc 标 志 ， 并 以 与 图 13-4 中 的 调用 相同 的 
参数 调用 open1og ° 


例子 : 由 inetd 作 为 守护 进程 局 动 的 时 间 获 取 服 
务 器 程序 


图 13-12 给 出 的 了 时间 获取 服务 器 程序 修改 自 图 13-5， 它 可 以 由 
inetd 启 动 。 


ineiddaylimeicpsrvi.c 


3 unt 
4 mainiins argc, char **argv' 
si 


6 eccklen t ler; 

P stracz sockaddr *cliaddr; 

R char buf f (MBXT TNE] ; 

a time = ticks; 

10 daemon inetd(arqv[0], 0); 

24 cliaddr - Malloc({sizeofistsuct sockaddr storsgs:), 

12 len = sizen= (struct sockarldr storage); 

13 Gatoeorname(C, cliadór, leni; 

14 crr m3q('conrection trom *5', Seck_ntop(cliaddr, lcnl); 
15 ticks = time (NULL); 

16 snprintf (biff, sizeo*ibo^f;, "%.24s\r\n", crime (sricks!): 
17 Wrize(C, buff, etrlenibu=f£}); 

18 Close (01; /* close TCE vor:neccian */ 
19 exitio): 

20 


ineid/daytimeicpsrv3.c 
图 13-12 ”可 由 inetd 启 动 的 协议 无 关 时 间 获 取 服 务 器 程序 


这 个 程序 有 两 个 大 的 改动 。 首先 ， 所 有 套 接 字 创 建 代码 ( 即 对 
tcp_listen 和 accept 的 调用 ) 都 消失 了 。 这 些 步 骤 改 由 inetd 执 
行 ， 我 们 使 用 描述 符 0 (标准 输入 ) 指 代 已 由 inetd 接 受 的 TCP 连 接 。 
其 次 ， 无 限 的 for 循 环 也 消失 了 ， 因 为 本 服务 器 程序 将 针对 每 个 客户 
连接 启动 一 次 。 服 务 完 当 前 客户 后 进程 就 终止 。 


调用 getpeername 

11-14 ”既然 未 曾 调用 tcp_listen， 我 们 不 知道 由 它 返 回 的 套 
接 字 地 址 结构 的 大 小 ， 而 且 既 然 未 曾 调用 accept， 我 们 也 不 知道 客 
户 的 协议 地 址 。 我 们 于 是 使 用 sizeof (struct 
sockaddr_storage) 给 套 接 字 地 址 结构 分 配 一 个 缓冲 区 ， 并 以 描述 
符 0 为 第 一 个 参数 调用 getpeername 。 
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为 了 在 我 们 的 Solaris 系 统 上 运行 本 例子 程序 ， 我 们 首先 赋予 本 服 
务 一 个 名 字 和 一 个 端口 ， 将 把 如 下 行 加 到 /etc/services 文 件 中 : 


mydaytime 9999/tcp 


接着 把 如 下 行 加 到 /etc/inetd.conf 文 件 中 : 


mydaytime stream tcp nowait andy 
/home/andy/daytimetcpsrv3 daytimetcpsrv3 


(本 行 太 长 已 做 折 行 处 理 。) 把 可 执行 文件 放 到 指定 的 位 置 后 ， 
我 们 给 inetd 发 送 一 个 SIGHUP 信 号 ， 告 知 它 重新 读 入 其 配置 文件 。 
紧 接着 我 们 执行 netstat 命 令 验 证 inetd 已 在 TCP 端 口 9999 上 创建 了 
一 个 监听 套 接 字 : 


solaris % netstat -na 2 grep 9999 
* 9999 0 0 49152 0 
LISTEN 


然后 从 男 一 个 主机 访问 这 个 服务 器 : 


linux % telnet solaris 9999 
Trying 192.168.1.20... 
Connected to solaris. 


Escape character is '^]'. 
Tue Jun 10 11:04:02 2003 
Connection closed by foreign host. 


/var/adm/messagesX(t (这 是 根据 /etc/syslog .conf 文 
件 ， 将 LOG_USER 设 施 的 消息 登记 到 其 中 的 文件 ) 中 有 如 下 的 日 志 消 


JON: 


Jun 10 11:04:02 solaris daytimetcpsrv3[28724]: connection from 


192.168.1.10.58145 


13.7 “小 结 


守护 进程 是 在 后 台 运 行 并 独立 于 所 有 终端 控制 的 进程 。 许 多 网 络 
服务 器 作为 守护 进程 运行 。 守 护 进 程 产生 的 所 有 输出 通常 通过 调用 
sySs1og 了 数 发 送 给 sys1ogd 守 护 进 程 。 系 统管 理 员 可 根据 发 送 消 息 
的 守护 进程 以 及 消息 的 严重 级 别 ， 完 全 控制 这 些 消 息 的 处 理 方 式 。 


局 动 任 意 一 个 程序 并 让 它 作 为 守护 进程 运行 需要 以 下 步骤 : 调用 
fork 以 转 到 后 台 运 行 ， 调 用 setsid 建 立 一 个 新 的 POSIX 会 话 并 成 为 
会 话 头 进程 ， 再 次 fork 以 避免 无 意 中 获 得 新 的 控制 终端 ， 改 变 工作 目 
孙 和 文件 创建 模式 掩 码 ， 最 后 关闭 所 有 非 必 要 的 描述 符 。 我 们 的 
daemon initEÉNZI Abg BU PueZm e 


许多 Unix 服 务 器 由 inetd 守 护 进 程 启动 。 它 处 理 全 部 守护 进程 化 
所 需 的 步骤 ， 当 启动 真正 的 服务 器 时 ， 套 接 字 已 在 标准 输入 、 标 准 输 
出 和 标准 错误 输出 上 打开 。 这 样 我 们 无 需 调 用 socket、bind、 
1isten 和 accpet， 因 为 这 些 步 骤 已 由 inetd 处 理 。 
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习题 


131 ”图 13-5 中 如 果 我 们 把 daemon_init 调 用 挪 到 检查 命令 行 参 
数 之 前 ， 使 得 err_quit 调 用 位 于 daemon_init 调 用 之 后 ， 那 会 发 生 
什么 ? 


132 ”对 于 由 inetd 内 部 处 理 的 5 个 服务 (图 2-18) ， 考 虑 每 个 服 
务 各 有 一 个 TCP 版 本 和 一 个 UDP 版 本 ， 这 样 总 共 10 个 服务 器 的 实现 
中 ， 哪 些 用 到 了 fork 调 用 ， 哪 些 不 需要 fork 调 用 ? 


13.3 ”如 果 我 们 创建 一 个 UDP 套 接 字 ， 把 端口 7 (图 2-18 中 标准 
echo 服 务 器 所 用 端口 ) 捆绑 到 其 上 ， 然 后 把 一 个 UDP 数 据 报 发 送 到 某 
个 标准 chargen 服 务 絮 ， 将 会 发 生 什 么 ? 


13.4 Solaris 2.x 关 于 inetd 的 手册 页 面 讲 述 了 一 个 -t 标 志 ， 它 会 
使 jnetd 调 用 syslog (所 用 设施 为 LOG_DAEMON， 级 别 为 
LOG NOTICE) 为 inetd 处 理 的 任何 TCP 服 务 登 记 客 户 的 IP 地 址 和 端 
口号 。inetd 是 如 何 取 得 本 信息 的 ? 


该 手册 页 面 还 说 inetd 不 能 为 所 处 理 的 UDP 服务 执行 同样 操作 。 
为 什么 ? 有 什么 办 法 可 以 绕 过 对 于 UDP 服 务 的 这 个 限制 呢 ? 
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@ 注 意 区 别 这 里 的 流 (streams) 和 我 们 一 直 在 使 用 的 字 节 流 

(stream) 。 前 者 是 一 种 访问 驱动 程序 (driver) 的 方法 ， 在 本 书 第 31 
章 中 介绍 ， 也 称 为 STREAMS; 后 者 是 与 数据 报 相 对 立 的 数据 传送 方 
式 ， 我 们 把 它 译 成 字 节 流 一 方面 避免 了 与 流 相 混淆 ， 男 一 方面 强调 它 
是 无 记录 边界 的 数据 流 (不 同 于 面向 记录 的 数据 流 ， 例 如 SCTP 关 联 中 
的 各 个 流 ) ， 或 者 说 它 的 记录 单元 是 无 可 最 小 的 字 节 (而 面 癌 记 录 数 
据 泊 的 记录 单元 往往 远 不 止 一 个 字 节 ) 。 另 外 一 个 应 该 避免 混 清 的 概 
念 是 标准 IO 画 数 库 中 的 标准 IO 流 (standard I/O streams) ， 它 在 本 书 
中 出 现 得 极 少 。 多 媒体 通信 中 还 有 流 媒 体 的 概念 。 译 者 注 


Qi Bopenlogh AZALI MRF T B ident f$ RAIH 

fh 它们 不 复制 这 个 字符 串 。 这 就 是 说 该 字符 串 不 应 该 在 栈 上 分 配 
(自动 变量 就 是 这 样 ) ， 因 为 以 后 调用 sys1og 时 如 果 相 应 的 栈 帧 被 

弹 走 了 了， 那么 由 open1og 保 存 的 指针 将 不 再 指向 原 ident 字 符 串 。 一 -一 


Stevens 注 


第 14 草 ”高 级 LO 图 数 


14.1 概述 


本 章 讨论 我 们 筹 统 地 归 为 “高 级 MO” 的 各 个 函数 和 技术 。 首 先是 在 
IO 操作 上 设置 超时 ， 这 里 有 三 种 方法 。 然 后 是 read 和 write 这 两 个 
函数 的 三 个 变 体 : recv 和 send 人 允许 通过 第 四 个 参数 从 进程 到 内 核 传 
递 标 志 ; readv 和 writev 人 允许 指定 往 其 中 输入 数据 或 从 其 中 输出 数 
据 的 缓冲 区 向 量 ; recvmsg 和 sendmsg 结 合 了 其 他 WO 画 数 的 所 有 特 
性 ， 并 具备 接收 和 发 送 辅助 数据 的 新 能 


我 们 还 在 本 章 中 考虑 如 何 确定 套 接 字 接 收 缓冲 区 中 的 数据 量 ， 如 
LL SIRE HERUNTER EUM 并 讨论 等 竺 事件 的 一 些 高 级 方 
VF o 


14.2 ERF 


在 涉及 套 接 字 的 VO 操作 上 设置 超时 的 方法 有 以 下 3 种 。 

(1) 调用 alarm， 它 在 指定 超时 期 满 时 产生 SIGALRM 信 号 。 这 个 
方法 涉及 信号 处 理 ， 而 信号 处 理 在 不 同 的 实现 上 存在 差异 ， 而 且 可 能 
干扰 进程 中 现 有 的 alarm 调 用 。 


(2) 在 select 中 阻塞 等 待 JO (select 有 内 置 的 时 间 限 制 ) ， 以 
此 代替 直接 阻塞 在 read 或 write 调用 上 。 
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(3) 使 用 较 新 的 SO_RCVTIME0 和 SO_SNDTIME0O 套 接 字 选项 。 这 
个 方法 的 问题 在 于 并 非 所 有 实现 都 支持 这 两 个 套 接 字 选 项 。 


上 壕 三 个 技术 都 适用 于 输入 和 输出 操作 (例如 read、write 及 其 
诸如 recvfrom、sendto 之 类 的 变 体 ) ， 不 过 我 们 依然 期 竺 可 用 于 
connect 的 技术 ， 因 为 TCP 内 置 的 connect 超 时 相当 长 〈 典 型 值 为 75 
秒 钟 ) 。select 可 用 来 在 connect 上 设置 超时 的 先决 条 件 是 相应 套 
接 字 处 于 非 阻塞 模式 〈 详 见 16.3 节 ) ， 而 那 两 个 套 接 字 选 项 对 
connect 并 不 适用 。 我 们 还 指出 ， 前 两 个 技术 适用 于 任何 描述 符 ， 而 
第 三 个 技术 仅仅 使 用 于 套 接 字 描 述 符 。 


我 们 接 下 去 给 出 使 用 这 三 个 技术 的 例子 。 
14.2.1 使 用 SIGALRM 为 connect 设 置 超时 

图 14-1 给 出 了 我 们 的 connect_timeo 函 数 ， 它 以 由 调用 者 指定 
的 超时 上 限 调用 connect。 它 的 前 3 个 参数 用 于 调用 connect， 第 四 


个 参数 是 等 得 的 秒 数 。 


lik/commect_tintes.c 


1 #incluce "uup.h* 
2 static vc-d connect alarmi:rt); 


3 int 
4 connect t-:Tec;in- sock=c, const SA *saptr, sccklen t salen, irt nsec) 


5 { 


6 Sigfunc *sigfunc: 

À int n; 

6 sigfunc - Siqnal(SIGALRM, connect alazmi!; 

& t= (slarmáía3sec) t= 6i 

10 err msgi"connect timec: alarm was already se-"!; 
11 a= ( (n = connectícockfd, esptr, salen)! < 0) { 

12 close | sockid! ; 

13 if /errno == BEINIR) 

14 errno = ETIMEDOUCT: 

15 ) 

16 elarm(0i; /* turn off the alarm */ 
17 Signal (SIGALRM, sigfunc): /* restore previous signal handler */ 
1é return (n): 

is ] 


20 static void 
21 coennect_alarm!in= signo) 


23 return; rr Just interrupt the connece() */ 


lib/eonnéct times.c 


图 14-1 ” 带 超 时 的 connect 


建立 信号 处 理 画 数 


8 ”为 SIGALRM 建 立 一 个 信号 处 理 画 数 。 现 有 信号 处 理 画 数 (如 
果 有 的 话 ) 得 以 保存 ， 以 便 在 本 画 数 结束 时 恢复 它 。 
设置 报警 (时 钟 ) 

9-10 ”把 本 进程 的 报警 时 钟 设置 成 由 调用 者 指定 的 秒 数 。 如 果 此 
前 已 经 给 本 进程 设置 过 报警 时 钟 ， 那 么 aLarm 的 返回 值 是 这 个 报警 时 
钟 的 当前 剩余 秒 数 ， 否 则 alarm 的 返回 值 为 0。 若 是 前 一 种 情况 ， 我 们 
a aa 
14.2) ° 


调用 connect 


11-15 调用 connect， 如 果 本 调用 被 中 断 ( 即 返 回 EINTR 错 
误 ) ， 那 就 把 errno 值 改 设 为 ETIMEOUT， 同 时 关闭 套 接 字 ， 以 防 三 


路 握手 继续 进行 。 
关闭 alarm 并 恢复 原来 的 信号 处 理 函 数 


16-18 通过 以 0 为 参数 值 调用 alarm 关 闭 本 进程 的 报警 时 钟 ， 同 
时 恢复 原来 的 信号 处 理 函 数 (如 果 有 的 话 ) e 


处 理 SIGALRM 


20-24 ”信号 处 理 函 数 只 是 简单 地 返回 。 我 们 设想 本 return 语 
句 将 中 断 进程 主 控 制 流 中 那个 未 决 的 connect 调 用 ， 使 得 它 返 回 一 个 
EINTR 错 误 。 回 顾 我 们 的 signal 函 数 (图 5-6) ， 当 被 捕获 的 信号 为 
SIGALRM 有 时 ，signal 琴 数 不 设 置 SA_RESTART 标 志 。 


就 本 例子 我 们 指出 两 点 ， 第 一 点 是 使 用 本 技术 总 能 减少 connect 
的 超时 期 限 ， 但 是 无 法 延长 内 核 现 有 的 超时 。 源 目 Berkeley 的 内 核 中 
connect 的 超时 通常 为 75s。 在 调用 我 们 的 函数 时 ， 可 以 指定 一 个 比 
75 小 的 值 (4010) ， 但 是 如 果 指 定 一 个 比 75 大 的 值 (如 80) ， 那 么 
connect 仍 将 在 75s 后 发 生 超 时 © 


另 一 点 是 我 们 使 用 了 系统 调用 (connect) 的 可 中 断 能 力 ， 使 得 
它们 能 够 在 内 核 超 时 发 生 之 前 返回 。 这 一 点 不 成 问题 的 前 提 是 : 我们 
执行 的 是 系统 调用 ， 并 且 能 够 直接 处 理由 它们 返回 的 EINTR 错 误 。 我 
们 将 在 29.7 节 碰 到 一 个 也 执行 系统 调用 的 库 函 数 ， 不 过 系统 调用 返回 
EINTR 时 这 个 库 函 数 重新 执行 同一 个 系统 调用 。 在 这 种 情形 下 我 们 仍 
能 使 用 SIGALRM， 不 过 将 在 图 29-10 中 看 到 ， 我 们 还 不 得 不 使 用 
sigsetjmp 和 siglongjmp 以 绕 过 函数 库 对 于 EINTR 的 忽略 。 


尽管 本 例子 相当 信 单 ， 但 在 多 线程 化 程序 中 正确 使 用 信号 却 非常 


困难 ( 见 第 26 章 ) 。 因 此 我 们 建议 只 是 在 未 线程 化 或 单线 程 化 的 程序 
中 使 用 本 技术 。 
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14.2.2 ”使 用 SIGALRM 为 recvfrom 设 置 超时 


14-2745 B As-84idg_clike, 3ü'9dg clilZiDB y 
alarm 使 得 一 旦 在 5 秒 钟 内 收 不 到 任何 应 答 就 中 断 recvfrom。 


-advia/declitineo3.c 


1 o$include ' ur.p. li" 


2 static vni sic sa rmi; 


3 void 


4 dà 011 (FILE “so, int socktd, const SA *pservaddr, sockicn_t ocrvicn) 


6 int n; 


? cnar serdline [MAX_INE], recvline (MAALINE + 1]; 

8 Siqnal!SIGALEM, 2:3 aim}; 

9 wnile iFgets(send.ine, MAXLINB. fp) .= NULL! | 
10 Serdrto(szckfd, sendlire, strlen(sendline), 0, pservaddr, servle3); 
il alarmís5;; 
12 i= ( (n = recvErom(sockfd, recvline, MAXL.NE, U, NULL, NULL)) < uU! | 
13 it (errnc == BINTR: 
14 fprint£ stderr, "socket timeout \n"). 
15 Plse 
16 err zys;,"recvtrom error"); 
17 ) eise ; 
18 alarm!0); 

19 recvl:re[n] = 0; /* null rerm:rare */ 
<o Fputs irecvline, etdout); 
<- ) 
22 , 
23 
24 static void 
25 sig alrmiirt signo) 
26 ， 
a? return; /* iust interrupt the recvfrom() v/ 
28 } 


图 14-2 使 


advio/dgclitineo3.c 


jalarmi&l]recvfromü')jdg clilZ& 


处 理 来 自 recvfrom 的 超时 


8-22 ”为 SIGALRM 建 立 一 个 信号 处 理 函 数 ， 并 在 每 次 调用 
recvfrom 前 通过 调用 alarm 设 置 一 个 5 秒 钟 的 超时 。 如 果 recvfrom 
被 我 们 的 信号 处 理 函 数 中 断 了 ， 那 就 输出 一 个 信息 并 继续 执行 。 如 果 
恋 到 一 行 来 自 服务 絮 的 文本 ， 那 就 关 挥 报警 时 钟 并 输出 服务 器 的 应 


SIGALRM 信 号 处 理 范 数 


24-28 信号 处 理 函 数 只 是 简单 地 返回 ， 以 中 断 被 阻塞 的 
recvfrom。 


本 例子 工作 正常 ， 因 为 每 次 调用 alarm 设 置 报警 时 钟 后 ， 期 待 读 
取 的 只 是 单个 应 答 。 我 们 将 在 20.4 节 使 用 同样 的 技术 ， 然 而 由 于 每 个 
报警 时 钟 对 应 读 取 多 个 应 答 ， 我 们 还 得 处 理 存 在 于 其 中 的 竞争 条 件 。 
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14.2.3 ”使 用 select 为 recvfrom 设 置 超时 


图 14-3 示 例 了 设置 超时 的 第 二 个 技术 (使 用 select) 。 这 个 名 为 
readable_timeo 的 函数 等 待 一 个 描述 符 最 多 在 指定 的 秒 数 内 变 为 可 
+ 


librecdatble_timesc.c 


1 &éincluse "unp.h* 

2 int 

3 readable timco(int td, int sec) 
4 1 


fd set rset; 
€ struct timeval  -v; 
7 FD ZBRO[&rset); 
= Fn SET(f- brset!:; 
S tv.tv gec = Bec; 
16 tv.tv_usce = 0; 
11 returní(sslect/fdel, rset, NULL, NULL, &tv)!; 
12 /* > 0 if descriptor is readable */ 


li 3 
librecdatie limec.c 


图 14-3 readable timeo 函 数 : 等 待 一 个 描 
准备 select 的 参数 


7-10 在 读 描述 符 集中 打开 与 调用 者 给 定 描述 符 对 应 的 位 。 把 调 
用 者 给 定 的 等 待 秒 数 设置 在 一 个 timeval1 结 构 中 。 


阻塞 在 select 上 


11-12 Select 等 竺 该 撒 述 符 变 为 可 读 ， 或 者 发 生 超时 。 本 函 
数 的 返回 值 就 是 select 的 返回 值 ， 出 错时 为 -1， 超 时 发 生 时 为 0， 否 


H 
AKARAT, E HIESERHBIETRMUN 7I BY e BRA 
以 是 TCP 也 可 以 是 UDP ° 


我 们 可 以 轻而易举 地 创建 等 待 描述 符 变 为 可 写 的 名 为 
writeable _ timeo 的 类 似 函 数 。 


我 们 在 图 14-4 中 使 用 这 个 函数 ， 它 改写 目 图 8-8 中 的 dg_c1i 函 
数 。 这 个 新 版 本 只 是 在 readable_timeo 返 回 一 个 正 值 时 才 调 用 
recvfrom。 


-adviordgclitimeol.c 
1 #include "unp.h" 

2 void 

3 dg cli(FILE *fp, irt scckfd, sonst SA *pservaddr, &ocklen t servier) 

4 | 

5 int n; 

6 char sendline[MBXxUINE’, recvline[MAXLINE + 1]; 

7 waile (FPqete(csendline, MAXLINE. fp) ‘= NULL: f 


8 Serdto{ssexfd, sendline, strlen(sendline), 0, pserveddr, servlen); 
9 i= (Readable timeo(sockfd, 5) == 0) { 

10 fprintf[stderr. 'sockst timeout \n"); 

11 } else ] 

12 n = Recvfrom(sockfd, recvline, MWRXL-CNE, 0, NULZ, NULL); 

13 re-vline[n] = 0; /* null terminate */ 

14 Fputs (recvline. stdout); 

15 } 

16 ] 

12^ 


advic/aechirimeol.c 


图 14-4 vVilFqreadable_timeoix italy adg_climnay 


直到 readable_timeo 告 知 所 关注 的 描述 符 已 变 为 可 读 后 我 们 才 
调用 recvfrom， 这 一 点 保证 recvfrom 不 会 阻塞 。 
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14.2.4 ”使 用 SO_RCVTIMEO 套 接 字 选项 为 
recvfrom 设 置 超时 


最 后 一 个 例子 展示 SO_RCVTIME0O 套 接 字 选项 如 何 设 置 超时 。 本 
选项 一 旦 设置 到 某 个 描述 符 〈 包 括 指定 超时 值 ) ， 其 超时 设置 将 应 用 


于 该 描述 符 上 的 所 有 读 操 作 。 本 方法 的 优势 就 体现 在 一 次 性 设置 选项 
上 ， 而 前 两 个 方法 总 是 要 求 我 们 在 欲 设置 时 间 限 制 的 每 个 操作 发 生 之 
前 做 些 工作 。 本 套 接 字 选 项 仅仅 应 用 于 读 操作 ， 类 似 的 
SO_SNDTIME0 选 项 则 仅仅 应 用 于 写 操作 ， 两 者 都 不 能 用 于 为 
connect 设 置 超时 。 


图 14-5 是 使 用 SO_RCVTIME0O 套 接 字 选项 的 另 一 个 版 本 的 dg_c1i 
函数 o 


advio/dge!timeo2.c 


1 #incluie "urp.h" 

2 void 

3 dà Cli!'ZILE “tc, int socktd, const SA *pservaddr, Socklcn t scrvicn) 
E * 

5 int n: 

6 char serdline [MAXLINE), recvline [MAMLINE + 1]; 

7 S-rac- timeval tv; 

8 tv.twv ace = E; 

9 tv.tv_usec = 0; 

10 Setsockopt(scckfd, SCL SOCKET, SO RCVTIMEO, &tv. sizeof itv)); 
1i waile (Fgets(sendline, NAXLINE. fp) .- NULL) [ 

12 Sendto(sscxsfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
13 n = recvfrom(sockfd, recvline, MAXLINE, 2, NJLL, NULL); 
14 $= (G«:0) i 

15 it [errno «= EWOULDBELCCX) | 

16 fpriatf/stderr, "sockat timeout \n") ; 

17 cortinue; 

18 j ise 

19 err_sysi"recvfrom error"); 

20 } 

2l recvline[n] = 9; /* rull terminate */ 

a2 Fpute (recviine, stdout) ; 

13 } 
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advic/agefitineos.c 


图 14-5 ”使 用 SO_RCVTIMEO0 套 接 字 选项 设置 超时 的 dg_c1i 函 数 
设置 套 接 字 选 项 


8-10 ”setsockopt 的 第 四 个 参数 是 指 癌 某 个 timeval 结 构 的 
一 个 指针 ， 其 中 填 入 了 期 望 的 超时 值 。 


测试 超时 


15-17 如果 IO 操 作 超 时 ， 其 函数 (这 里 是 recvfrom) 将 返回 
一 个 EWOULDBLOCK 错 误 。 


14.3 recvillsendERZA 


这 两 个 函数 类 似 标准 的 read 和 write 函 数 ， 不 过 需要 一 个 额外 的 
参数 。 


#include <sys/socket.h> 


ssize_t recv(int sockfd, void *buff, size_t nbytes, int flags); 


ssize_t send(int sockfd, const void *buff, size_t nbytes, int 
flags); 


数 ， 若 出 错 则 为 -1 


386~ 
387 
recv 和 send 的 前 3 个 参数 等 同 于 read 和 write 的 3 个 参数 。flags 
参数 的 值 或 为 0， 或 为 图 14-6 列 出 的 一 个 或 多 个 常 值 的 逻辑 或 。 


返回 ， 若 成 功 则 为 读 入 或 写 出 的 字 市 


MSG_DONTROUTE 绕 过 路 由 表 查 找 


MSG DONTWAIT 


QUE BHTEAEBI E e 
MSG_OCE 发 送 或 接收 市 外 数据 . 


MSG PEEK SUS Mont 


等 待 所 有 数据 


MSG WAITALL 


图 14-6 ”WO 函数 的 flags 参 数 


MSG_DONTROUTE 本 标志 告知 内 核 目 的 主机 在 某 个 直接 连接 的 
本 地 网 络 上 ， 因 而 无 需 执 行路 由 表 碍 找 。 我 们 已 随 SO_DONTROUTE 套 
接 字 选项 (7.51) 提供 了 本 特性 的 额外 信息 。 这 个 既 可 以 使 用 
MSG_DONTROUTE 标 志 针 对 单个 输出 操作 开启 ， 也 可 以 使 用 
nn 输出 操作 开 


MSG DONTWAIT AREER AAMER Ei 
Bite §, FE SOP Em TRE ASEM SE, RATIO E, “Ala 
关闭 非 阻 塞 标志 。 我 们 将 在 第 16 章 中 介绍 非 阻 塞 式 1O 以 及 如 何 打开 或 
关闭 某 个 套 接 字 上 上 所 有 LO 操作 的 非 阻塞 标志 。 


这 个 标志 是 随 NeV3 新 增设 的 ， 可 能 并 非 所 有 系统 都 文 持 它 。 


MSG_00B 对 于 send， 本 标志 指明 即将 发 送 带 外 数据 。 正 如 我 
们 将 在 第 24 章 中 讲述 的 那样 ，TCP 连 接 上 只 有 一 个 字 节 可 以 作为 带 外 
eae °。 对 于 recv， 本 标志 指明 即将 读 入 的 是 带 外 数据 而 不 是 普通 
数据 。 


MSG PEEK 本 标志 适用 于 recv 和 recvfrom， 它 人 允许 我 们 查看 
已 可 读 取 的 数据 ， 而 且 系 统 不 在 recv 或 recvfrom 返 回 后 丢弃 这 些 数 
据 。 我 们 将 在 14.7 节 详细 讨论 这 个 标志 。 


MSG WAITALL 本 标志 随 4.3BSD Reno 引 入 。 它 告知 内 核 不 要 在 
尚未 读 入 请 求 数目 的 字 节 之 前 让 一 个 读 操作 返回 。 如 果 系 统 支 持 本 标 
志 ， 我 们 就 可 以 省 掉 readn 函 数 (图 3-15) , mu EZ DLP B: 


#define readn(fd, ptr, n) recv(fd, ptr, n, MSG WAITALL) 
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即使 指定 了 MSG_WAITALL， 如 果 发 生 下 列 情况 之 一 : (a) 捕获 一 
个 信号 ，(b) 连 接 被 终止 ，(@ 套 接 字 发 生 一 个 错误 ， 相 应 的 读 函 数 仍 有 
可 能 返回 比 所 请 求 字 节 数 要 少 的 数据 。 


另 有 一 些 标志 适用 于 TCP/AP 以 外 的 协议 族 。 举 例 来 说 ，OSI 的 传 
输 层 是 基于 记录 的 (不 像 TCP 那 样 是 一 个 字 节 流 ) ， 其 输出 操作 支持 
MSG_EOR 标 志 ， 指 示 逻 辑 记录 的 结束 。 


flags 参 数 在 设计 上 存在 一 个 基本 问题 ， 它 是 按 值 传 递 的 ， 而 不 是 
一 个 值 -结果 参数 。 因 此 它 只 能 用 于 从 进程 辐 内 核 传 递 标 志 。 内 核 无 法 
向 进程 传 回 标志 。 对 于 TCP/P 协 议 这 一 点 不 成 问题 ， 因 为 TCP/IP 几 乎 
不 需要 从 内 核 回 进程 传 回 标志 。 然 而 随 着 OSI 协议 被 加 到 4.3BSD Reno 
中 ， 却 提出 了 随 输 入 操作 疝 进 程 返 送 MSG_EOR 标 志 的 需求 。4.3BSD 


Reno 做 出 的 决定 是 保持 常用 输入 函数 (recv 和 recvfrom) 的 参数 不 
变 ， 而 改变 recvmsg 和 sendmsg 所 用 的 msghdr 结 构 。 我 们 将 在 14.5 

节 中 看 到 该 结构 新 增 了 一 个 整数 nsg_flags 成 员 ， 而 且 既 然 该 结构 按 
引用 传递 ， 内 核 就 可 以 在 返回 时 修改 这 些 标志 。 这 个 决定 同时 意味 着 
如 果 一 个 进程 需要 由 内 核 更 新 标志 ， 它 就 必须 调用 recvmsg， 而 不 是 
调用 recv 或 recvfrom。 


14.4 readvdliwritevEÉRN2ZA 


这 两 个 函数 类 似 read 和 write， 不 过 readv 和 writev 人 允许 单个 
系统 调用 读 入 到 或 写 出 自 一 个 或 多 个 缓冲 区 。 这 些 操作 分 别称 为 分 散 
WE (scatter read) 和 集中 写 (gather write) ， 因 为 来 自 读 操 作 的 输入 数 
据 被 分 散 到 多 个 应 用 缓冲 区 中 ， 而 来 自 多 个 应 用 缓冲 区 的 输出 数据 则 
被 集中 提供 给 单个 写 操作 e 


#include <sys/uio.h> 


ssize t readv(int filedes, const struct iovec *iov, int iovcnt); 


ssize t writev(int filedes, const struct iovec *iov, int iovcnt); 
返回 : ARAM SA SX ES HEISE 
数 ， 若 出 错 则 为 -1 


这 两 个 函数 的 第 二 个 参数 都 是 指 癌 某 个 iovec 结 构 数 组 的 一 个 指 
其 中 ijovec 结 构 在 头 文 件 <sys/uio.h> 中 定义 : 


针 


struct iovec { 
void *iov_base; /* starting address of buffer */ 


size_t iov_len; /* size of buffer */ 


, 
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这 里 给 出 的 iovec 结 构 其 各 个 成 员 的 数据 类 型 符合 POSIX 规 范 。 
你 可 能 会 础 到 把 iovec_base 成 员 定义 为 char *， 把 iov_len 成 员 
定义 为 int 的 实现 。 


iovec 结 构 数 组 中 元 素 的 数 日 存在 某 个 限制 ， 具体 取决 于 实现 。 
举例 来 说 ，4.3BSD 和 Linux 均 最 多 允许 1024 个 ， 而 HP-UX 最 多 人 允许 
2100 个 。POSIX 要 求 在 头 文 件 <sys/Vuio ,h> 中 定义 IOV_MAX 负 值 ， 
而 且 其 值 至 少 为 16。 


readv 和 writev 这 两 个 函数 可 用 于 任何 描述 符 ， 而 不 仅 限 于 套 
接 字 。 另 外 writev 是 一 个 原子 操作 ， 意 味 着 对 于 一 个 基于 记录 的 协 


iM (例如 UDP) 而 言 ， 一 次 writev 调 用 只 产生 单个 UDP 数据 报 。 


我 们 在 7.9 节 随 TCP_NODELAY 套 接 字 选项 提 到 过 writev 的 一 个 用 
途 。 当 时 我 们 说 一 个 4 字 节 的 write 跟 一 个 396 字 节 的 write 可 能 触发 
Nagle 算 法 ， 首 选 办 法 之 一 是 针对 这 两 个 缓冲 区 调用 writev。 


14.5 recvmsg#lsendmsg Wt 


这 两 个 函数 是 最 通用 的 IO 函数 。 实 际 上 我 们 可 以 把 所 有 read、 
readv、recv 和 recvfrom 调 用 蔡 换 成 recvmsg 调 用 。 类 似 地 ， 各 种 
输出 函数 调用 也 可 以 替换 成 Sendmsg 调 用 。 


#include <sys/socket.h> 


ssize_t recvmsg(int sockfd, struct msghdr *msg, int flags); 


ssize_t sendmsg(int sockfd, struct msghdr *msg, int flags); 


返回 : 若 成 功 则 为 读 入 或 写 出 的 字 市 


数 ， 专 出错 则 为 -1 


这 两 个 函数 把 大 部 分 参数 封 活 到 一 个 msghdr 结 构 中 : 


struct msghdr { 
void *msg name; /* protocol address */ 
socklen t msg namelen; /* size of protocol address 
ui 
struct iovec *msg iov; /* scatter/gather array */ 
int msg iovlen; /* # elements in msg iov */ 


void *msg control; /* ancillary data (cmsghdr 
struct). */ 

socklen t msg controllen; /* length of ancillary data 
27 

int msg_flags; /* flags returned by 
recvmsg() */ 


, 


这 里 给 出 的 msghdr 结 构 符 合 POSIX 规 范 。 有 些 系统 仍然 使 用 本 结 
构 源 目 4.2BSD 的 较 旧 版 本 。 这 个 较 旧 的 结构 没有 msg_f1lags 成 员 ， 
而 且 msg_control 和 msg_controllen 成 员 分 别 被 称 为 
msg_accrights 和 msg_accrightslen。 这 个 较 旧 结构 唯一 支持 的 
辅助 数据 形式 用 于 传递 文件 描述 符 ( 称 为 访问 权限 ) 。 


msg_name 和 msg_namelen 这 两 个 成 员 用 于 套 接 字 未 连接 的 场合 
( 璧 如 未 连接 UDP 套 接 字 ) 。 它 们 类 似 recvfrom 和 sendto 的 第 五 个 


和 第 六 个 参数 : msg_name 指 向 一 个 套 接 字 地 址 结构 ， 调 用 者 在 其 中 
存放 接收 者 (对 于 sendmsg 调 用 ) 或 发 送 者 (对 于 recvmsg 调 用 ) 的 
协议 地 址 。 如 果 无 需 指 明 协 议 地 址 (例如 对 于 TCP 套 接 字 或 已 连接 
UDP 套 接 字 ) ，msg_name 应 置 为 空 指针 。msg_namelen 对 于 
sendmsg 是 一 个 值 参 数 ， 对 于 recvmsg 却 是 一 个 值 一 结果 参数 。 
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msg_iov 和 msg_iovlen 这 两 个 成 员 指 定 输入 或 输出 缓冲 区 数组 
( 即 iovec 结 构 数组 ) ， 类 似 readv 或 writev 的 第 二 个 和 第 三 个 参 
数 。msg_contro1 和 msg_controllen 这 两 个 成 员 指定 可 选 的 辅助 
数据 的 位 置 和 大 小 。msg_controllen 对 于 recvmsg 是 一 个 值 一 结 
果 参 数 。 我 们 将 在 14.6 节 讲解 辅助 数据 。 


对 于 recvmsg 和 sendmsg， 我 们 必须 区 别 它们 的 两 个 标志 变量 ， 
一 个 是 传递 值 的 hags 参 数 ， 另 一 个 是 所 传递 nsghdr 结 构 的 
msg_flags 成 员 ， 它 传递 的 是 引用 ， 因 为 传递 给 函数 的 是 该 结构 的 地 
址 。 


。 只 有 recvmsg 使 用 msg_flags 成 员 。recvmsg 被 调用 时 ，flags 
参数 被 复制 到 msg_flags 成 员 (TCPv2 第 502 页 ) ， 并 由 内 核 使 
用 其 值 驱动 接收 处 理 过 程 。 内 核 还 依据 recvmsg 的 结果 更 新 
msg_flags 成 员 的 值 。 

sendmsg 则 忽略 msg_flags 成 员 ， 因 为 它 直 接 使 用 flags 参 数 驱 
动 发 送 处 理 过 程 。 这 一 点 意味 着 如 果 想 在 某 个 sendmsg 调 用 中 设 
置 MSG_DONTWAIT 标 志 ， 那 就 把 flags 参 数 设 置 为 该 值 ， 把 
msg_flags 成 员 设 置 为 该 值 不 起 作用 。 


14-7 汇 总 了 内 核 为 输入 和 输出 函数 检查 的 hags 参 数值 以 及 
recvmsg 可 能 返回 的 msg_flags 成 员 值 。 其 中 没有 sendmsg 
msg_f1lags 一 栏 ， 因 为 我 们 已 提 及 本 组 合 无 效 。 


E A BUS isend. HAAS recv, ti BUE recvmss Ai 
sendtorsendmsgifixt | reevfromtlreevnsaifi MK msg flagstt iS 
flags E E iE Pgs $t MUN D ils [A 


MEG DONTROUTE 
MSG DONTWAIT 
MSG PEEK 

MSS WAITALL 


MSG BEAST 
MSG MOAST 
MSG_TRUNC 
MSG_CTRUNC 

MSG_NOTIFICATION 


图 14-7 f FRUOER TRO ACRI Ho tas B A £s 
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这 些 标志 中 ， 内 核 只 检查 而 不 返回 前 4 个 标志 ， 既 检查 又 返回 搂 下 
来 的 2 个 标志 ， 不 检查 而 只 返回 后 4 个 标志 "recvmsg 返 回 的 7 个 标志 
解释 如 下 。 


MSG BCAST 本 标志 随 BSD/0S 引 入 ， 相 对 较 新 。 它 的 返回 条 件 
是 本 数据 报 作为 链 路 层 广 播 收取 或 者 其 目的 IP 地 址 是 一 个 广播 地 址 。 
与 TP_RECVD- STADDR 竹 接 字 选项 相 比 ， 本 标志 是 用 于 判定 一 个 
UDP 数据 报 是 否 发 往 某 个 广播 地 址 的 更 好 方法 。 


MSG MCAST 本 标志 随 BSD/0S 引 入 ， 相 对 较 新 。 它 的 返回 条 件 
是 本 数据 报 作为 链 路 层 多 播 收 取 。 


MSG_TRUNC 本 标志 的 返回 条 件 是 本 数据 报 被 截断 ， 也 就 是 说 ， 
内 核 预 备 返 回 的 数据 超过 进程 事先 分 配 的 空间 (所 有 iov_len 成 员 之 
Al) 。 我 们 将 在 22.3 节 详细 讨论 本 问题 。 


MSG_CTRUNC ”本 标志 的 返回 条 件 是 本 数据 报 的 辅助 数据 被 截 
断 ， 也 就 是 说 ， 内 核 预备 返回 的 辅助 数据 超过 进程 事先 分 配 的 空间 


(msg_controllen) 。 


MSG_EOR 本 标志 的 返回 条 件 是 返回 数据 结束 一 个 逻辑 记录 。 
TCP 不 使 用 本 标志 ， 因 为 它 是 一 个 字 太 流 协 议 。 


MSG_00B 本 标志 绝 不 为 TCP 带 外 数据 返回 。 它 用 于 其 他 协议 族 
(例如 OSI 协 议 族 ) 。 


MSG NOTIFICATION 本 标志 由 SCTP 接 收 者 返回 ， 指 示 读 入 的 
消息 是 一 个 事件 通知 ， 而 不 是 数据 消息 。 


具体 实现 可 能 会 在 msg_flags 成 员 中 返回 一 些 输入 flags 参 数值 ， 
因此 我 们 应 该 只 检查 那些 感 兴趣 的 标志 值 《例如 图 14-7 中 的 后 6 个 标 


o 


T) 


图 14-8 展 示 了 一 个 msghdr 结 构 以 及 它 指向 的 各 种 信息 。 图 中 假设 
进程 即将 对 一 个 UDP 套 接 字 调 用 recvmsg 。 


图 14-8 ”对 一 个 UDP 套 接 字 调用 recvmsg 时 的 数据 结构 


图 中 给 协议 地 址 分 配 了 16 个 字 节 ， 给 辅助 数据 分 配 了 20 个 字 节 。 
为 缓冲 数据 初始 化 了 一 个 由 3 个 iovec 结构 构成 的 数组 ; = 
S100 TAZ, BNE N60 HRA , 个 指定 一 
个 80 字 节 的 缓冲 区 o 我 们 还 假设 已 为 这 个 套 接 字 设 置 了 
IP_RECVDSTADDR 套 接 字 选项 ， 以 接收 所 读 取 UDP 数据 报 的 目的 卫 地 
址 。 


我 们 接着 假设 从 192.6.38.100 端 口 2000 到 达 一 个 170 字 节 的 UDP 数 
据 报 ， 它 的 目的 地 是 我 们 的 UDP 套 接 字 ， 目 的 卫 地 址 为 
206.168.112.96。 图 14-9 展 示 了 recvmsg 返 回 时 msghdr 结 构 中 的 所 有 


Y. 
信息 。 
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sockaddr in() 
-> I 16,AF INET, 2000 
192.6.38.100 


emsghdr{} 


16 
angg ewe IPPROTC IP 

IP RECVDSTADDR 

206.268.112,86 


图 14-9 recvmsg 返 回 时 对 图 14-8 的 更 新 


图 中 被 recvmsg 修 改过 的 字段 标 上 了 阴影 。 从 图 14-8 到 图 14-9 的 
变动 包括 以 下 几 点 。 


。 由 msg_name 成 员 指 向 的 缓冲 区 被 填 以 一 个 网 际 网 套 接 字 地 址 结 
构 ， 其 中 有 所 收 到 数据 报 的 源 IP 地 址 和 源 UDP 端 口号 。 

。msg_namelen 成 员 (一 个 值 -结果 参数 ) 被 更 新 为 存放 在 
msg_name 所 指 缓冲 区 中 的 数据 量 。 本 成 员 并 无 变化 ， 因 为 
recvmsg 调 用 前 和 返回 后 其 值 均 为 16。 

。 所 收取 数据 报 的 前 100 字 节 数 据 存放 在 第 一 个 缓冲 区 ， 中 60 字 市 数 
据 存放 在 第 二 个 缓冲 区 ， 后 10 字 节 数 据 存放 在 第 三 个 缓冲 区 。 最 
后 那个 缓冲 区 的 后 70 字 节 没 有 改动 。recvmsg 函 数 的 返回 值 (BD 
170) 就 是 该 数据 报 的 大 小 。 

。 由 msg_control 成 员 指向 的 缓冲 区 被 填 以 一 个 cmsghdr 结 构 。 

(我 们 将 在 14.6 闻 详细 讨论 辅助 数据 ， 在 22.2 节 详细 讨论 


IP_RECVDSTADDR 套 接 字 选 项 。) 该 cmsghdr 结 构 中 ， 
cmsg_len 成 员 值 为 16，cmsg_level 成 员 值 为 TPPROTO_IP， 
cmsg_type 成 员 值 为 TP_RECVDSTADDR， 随 后 4 个 字 节 存放 所 收 
ea 目的 卫 地 址 。 这 个 20 字 节 缓 冲 区 的 后 4 个 字 节 没有 
改动 。 

。msg_controllen 成 员 被 更 狐 为 所 存放 辅助 数据 的 实际 数据 量 
本 成 员 也 是 一 个 值 -结果 参数 ，recvmsg 返 回 时 其 结果 为 16。 

° ck a de 不 过 没有 标志 返回 给 进 


图 14-10 汇 总 了 我 们 已 讲述 的 5 组 VO 函数 之 间 的 差异 。 


readv, writev 


图 14-10 ”5 组 VO 画 数 的 比较 


14.6 ”辅助 数据 


辅助 数据 (ancillary data) 可 通过 调用 sendmsg 和 recvmsg 这 两 

个 函数 ， 使 用 msghdr 结 构 中 的 msg_contro1 和 msg_controllen 

这 两 个 成 员 发 送 和 接收 。 辅助 数据 的 另 一 个 称谓 是 控制 信息 (control 

information) 。 我 们 将 在 本 市 讲解 其 概念 并 给 出 用 于 构造 和 处 理 辅 助 

ee 和 宏 ， 不 过 介绍 辅助 数据 实际 用 途 的 代码 例子 将 留 到 以 后 
J 相关 章节 o 


图 14-11 汇 总 了 我 们 将 在 本 书 中 讨论 的 辅助 数据 的 各 种 用 途 。 
Lm e 7 


iPr IPEPROTO Iz IP &ECVDSTADDR 
IP SECVIP 

IPVé DSTOPTS 
IPVS HOPLIMIT 
IPVé HOPOPTS 
IPV5 NBXTHCP 
IPV6 PKTINFO 


EGUDP 35 f JE HC H Áh: 
BRUDP 2 AB E PZ ET | 
frog Ape B A X 0 

dro de BER 

frog Aw ib so 

fog FB 

指定 /接收 分 组 信息 


IPBEROTO IFV6 


LPVS_RTHDR HAAR EF mu 

IPV6 TCLASS res! pei y ALGAE 8 Hi 
Unix tek SCM_RIGHTS 友 送 /接收 描述 符 

SCM_CRRDS RD PET PARNE 


图 14-11 辅助 数据 用 途 的 总 结 
OSI 协 议 族 也 出 于 各 种 目的 使 用 辅助 数据 ， 但 本 书 不 做 讨论 。 
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辅助 数据 由 一 个 或 多 个 辅助 数据 对 象 (ancillary data object) 构 
成 ， 每 个 对 象 以 一 个 定义 在 头 文件 <sys/socket .h> 中 的 cmsghdr 
结构 开头 。 


struct cmsghdr { 


socklen_t cmsg_len; /* length in bytes, including this 
structure */ 
int cmsg level; /* originating protocol */ 


int cmsg type; /* protocol-specific type */ 


/* followed by unsigned char cmsg_data[] */ 
}; 


我 们 已 在 图 14-9 中 见识 过 这 个 结构 ， 当 时 它 由 IP_RECVDSTADDR 
套 接 字 选项 用 来 返回 所 收取 UDP 数据 报 的 目的 IP 地 址 。 由 
msg_control 指 向 的 辅助 数据 必须 为 csmghdr 结 构 适当 地 对 齐 。 我 
们 将 在 图 15-11 中 展示 一 个 对 齐 方 法 。 


14-12 展 示 了 在 一 个 控制 缓冲 区 中 出 现 2 个 辅助 数据 对 和 象 的 例 
msg_control 


cmsq len 


cmsq level jenes 


A cmsg_type 
H 
e 辅助 数据 对 象 
= CMSG SPACE() 
只 
a 
一 = AD 
9 
5 Ey | jS M LIE 
D cmsq level cemsghdr {} 
A els cmsSg type | 
E | ii 2x See 
= - E JE 
m 辅助 数据 对 象 
E c. CMSG SPACE () 
= 
5 


图 14-12 ”包含 两 个 辅助 数据 对 象 的 辅助 数据 


msg_control 指 癌 第 一 个 辅助 数据 对 象 ， 辅 助 数据 的 总 长 度 则 
由 msg_controllen 指 定 。 每 个 对 象 开 头 都 是 一 个 描述 该 对 象 的 
cmsghdr 结 构 。 在 cmsg_type 成 员 和 实际 数据 之 间 可 以 有 填充 字 
广 ， 从 数据 结尾 处 到 下 一 个 辅助 数据 对 象 之 前 也 可 以 有 填充 字 广 。 我 
们 稍 后 讲解 的 5 个 CMSG_XXX 宏 会 解决 这 种 可 能 的 填充 问题 。 


不 是 所 有 实现 都 文 持 在 单个 控制 缓冲 区 中 存放 多 个 辅助 数据 对 


图 14-13 展 示 了 通过 一 个 Unix 域 套 接 字 传 递 描述 符 (15.75) 或 传 
BAUE 〈15.8 节 ) 时 所 用 cmsghdr 结 构 的 格式 。 
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emsghdr{ } emsghdr{ } 
cmsg level |SOL_SOCKET SOL SOCKET 


SCM RIGHTS SCM CREDS 


fcrad() 


图 14-13 ”用 在 Unix 域 套 接 字 上 的 cmsghdr 结 构 


图 中 我 们 假设 cmsghdr 结 构 的 每 个 成 员 (总 共 3 个 ) 都 占用 4 个 字 
节 ， 而 且 在 cmsghdr 结 构 和 实际 数据 之 间 没 有 填充 字 节 。 A5 PEST OL 
符 时 ，cmsg_ data 数 组 的 由 容 古 真正 的 描述 符 值 。 图 中 只 展示 了 一 个 
竺 传递 的 描述 符 ， 然 而 一 般 总 能 传递 多 个 搓 述 AP (这 种 情况 下 
cmsg_len 的 值 为 12 加 上 4 乘 以 描述 符 的 数目 ， 这 里 假设 每 个 描述 符 占 
jEAT ET) ° 


既然 由 recvmsg 返 回 的 辅助 数据 可 含有 任意 数目 的 辅助 数据 对 
R, S Lc LIT 
<SyS/socket .h> 中 定义 了 以 下 5 个 安 ， 以 稍 化 对 辅助 数据 的 处 理 。 


#include <sys/socket.h> 


#include <sys/param.h> /* for ALIGN macro on many 
implementations */ 


struct cmsghdr *CMSG FIRSTHDR(struct msghdr *mhdrptr); 


返回 : 指向 第 一 个 cmsghdr 结 构 的 指针 ， 若 无 辅助 


数据 则 为 NULL 


struct cmsghdr *CMSG_NXTHDR(struct msghdr *mhdrptr, struct cmsghdr 
*cmsgptr); 


返回 : 指向 下 一 个 cmsghdr 结 构 的 指针 ， 若 不 再 有 辅助 数 


TH 


对 象 则 为 NULL 


unsigned char *CMSG DATA(struct cmsghdr *cmsgptr); 


返回 : 指向 与 cmsghdr 结 构 关 联 的 数据 的 第 


个 字 市 的 指针 


返回 : 给 定数 据 量 下 存放 到 


cmsg_len 中 的 值 


unsigned int CMSG_SPACE(unsigned int length); 


返回 : 给 定数 据 量 下 一 个 辅助 数 


据 对 象 总 的 大 小 
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POSIX 定 义 了 前 3 个 宏 ，RFC 3542 [Stevens et al. 2003] 定义 了 后 
J^ ® 


这 些 宏 能 以 如 下 伪 代 码 形式 使 用 。 


struct msghdr msg; 
struct cmsghdr *cmsgptr; 


/* fill in msg structure */ 
/* call recvmsg() */ 


for (cmsgptr = CMSG_FIRSTHDR(&msg); cmsgptr != NULL; 
cmsgptr = CMSG_NXTHDR(&msg, cmsgptr)) { 
if (cmsgptr->cmsg_ level == ... && 
cmsgptr->cmsg_type == ...) { 
u_char *ptr; 


ptr = CMSG DATA(cmsgptr); 
/* process data pointed to by ptr */ 


} 
be 

CSMG_FIRSTHDRiX Ejs m E — “HaHa RRA Tet, SATO AO 
果 在 msghdr 结 构 中 没有 辅助 数据 (或 者 msg_control1 为 一 个 空 指 
针 ， 或 者 csmg_len 小 于 一 个 cmsghdr 结 构 的 大 小 ) ， 那 就 返回 一 个 
空 指针 。 当 控制 缓冲 区 中 不 再 有 下 一 个 辅助 数据 对 象 时 ， 
CSMG_NXTHDR 也 返回 一 个 空 指针 。 


CMSG_FIRSTHDR 的 许多 现 有 实现 并 不 检查 msg_controllen 而 
直接 返回 msg_control 的 值 。 在 图 22-2 中 ， 我 们 将 在 调用 该 宏 之 前 测 
ikmsg. controllenfjfü ° 


CMSG_LEN 和 CMSG_SPACE 的 区 别 在 于 ， 前 者 不 计 辅 助 数据 对 象 
中 数据 部 分 之 后 可 能 的 填充 字 节 ， 因 而 返回 的 是 用 于 存放 在 
cmsg_len 成 员 中 的 值 ， 后 者 计 上 结尾 处 可 能 的 填充 字 节 ， 因 而 返回 
的 是 为 辅助 数据 对 象 动态 分 配 空间 的 大 小 值 。 


14.7 ”排队 的 数据 量 


有 时候 我 们 想 要 在 不 真正 读 取 数据 的 前 提 下 知道 一 个 套 接 字 上 已 
有 多 少数 据 排队 等 着 读 取 。 有 3 个 技术 可 用 于 获悉 已 排队 的 数据 量 。 


(1) 如 果 获 悉 已 排队 数据 量 的 目的 在 于 避免 读 操 作 阻 塞 在 内 核 中 
(因为 没有 数据 可 读 时 我 们 还 有 其 他 事情 可 做 ) ， 那 么 可 以 使 用 非 阻 
塞 式 1O。 我 们 将 在 第 16 章 中 讨论 非 阻 塞 式 IO © 


(2) 如 果 我 们 既 想 查看 数据 ， 又 想 数据 仍然 留 在 接收 队列 中 以 供 本 
进程 其 他 部 分 稍 后 读 取 ， 那 么 可 以 使 用 MSG_PEEK 标 志 (114-6) ° 
如 果 我 们 想 这 样 做 ， 然 而 不 能 肯定 是 否 真有 数据 可 读 ， 那 么 可 以 结合 
非 阻 塞 套 接 字 使 用 该 标志 ， 也 可 以 组 合 使 用 MSG_DONTWAIT 标 志和 
MSG_PEEK 标 志 。 
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需 注 意 的 是 ， 就 一 个 字 万 流 套 接 字 而 言 ， 其 接收 队列 中 的 数据 量 
可 能 在 两 次 相继 的 recv 调 用 之 间 发 生变 化 。 举 例 来 说 ， 假 设 指定 
MSG_PEEK 标 志 以 一 个 长 度 为 1024 字 节 的 缓冲 区 对 一 个 TCP 套 接 字 调 
用 recv， 而 且 其 返回 值 为 100。 如 果 再 次 调用 同一 个 recv， 返 回 值 就 
有 可 能 超过 100 〈 假 设 指定 的 缓冲 区 长 度 大 于 100) ， 因 为 在 这 两 次 调 
用 之 间 TCP 可 能 又 收 到 了 一 些 数 据 。 


束 一 个 UDP 和 套 接 字 而 言 ， 假 设 其 接收 队列 中 已 有 一 个 数据 报 ， 如 
果 我 们 指定 MSG_PEEK 标 志 调 用 recvfrom 一 次 ， 稍 后 不 指定 该 标志 
再 调用 recvfrom 一 次 ， 那 么 即使 男 有 数据 报 在 这 两 次 调用 之 间 加 入 
该 套 接 字 的 接收 队列 ， 这 两 个 调用 的 返回 值 (数据 报 大 小 、 内 容 及 发 
送 者 地 址 ) 也 完全 相同 。 (当然 这 里 假设 没有 其 他 进程 共享 该 套 接 字 
并 从 中 读 取 数 据 。) 


(3) 一 些 实现 支持 ioct1 的 FIONREAD 命 令 。 该 命令 的 第 三 个 
ioctl1 参 数 是 指向 某 个 整数 的 一 个 指针 ， 内 核 通 过 该 整数 返回 的 值 就 
是 套 接 字 接收 队列 的 当前 字 节 数 (TCPv2 第 553 页 ) 。 该 值 是 已 排队 字 
节 的 总 和 ， 对 于 UDP 和 套 接 字 而 言 包括 所 有 已 排队 的 数据 报 。 还 要 注意 


的 是 ， 在 源 目 Berkeley 的 实现 中 ， 为 UDP 套 接 字 返 回 的 值 还 包括 一 个 
套 接 字 地 址 结构 的 空间 ， 其 中 含有 发 送 者 的 卫 地 址 和 端口 号 (对 于 
IPv4 为 16 个 字 节 ， 对 于 IPv6 为 24 个 字 节 ) o 


14.8” 套 接 字 和 标准 IO 


到 目前 为 止 的 所 有 例子 中 ， 我 们 一 直 使 用 也 称 为 Unix IO 一 一 包 
括 read、write 这 两 个 函数 及 它们 的 变 体 (recv、send 等 等 ) 一 一 
的 函数 执行 TO。 这 些 函 数 围绕 描述 符 (descriptor) 工作 ， 通 常 作为 
Unix 内 核 中 的 系统 调用 实现 。 


执行 IO 的 另 一 个 方法 是 使 用 标准 MO 画 数 库 (standard IO 
library) 。 这 个 函数 库 由 ANSI C 标 准 规范 ， 意 在 便于 移植 到 支持 ANSI 
c 的 非 Unix 系 统 上 。 标准 IO 函 数 库 处 理 我 们 直接 使 用 Unix WO 函数 时 
必须 考虑 的 一 些 细节 ， 璧 如 自动 缓冲 输入 流 和 输出 流 。 不 幸 的 是 ， 它 
对 于 流 的 缓冲 处 理 可 能 导致 我 们 同样 必须 考虑 的 一 组 新 的 问题 。 
APUE 第 5 章 详细 讨论 了 标准 IO 函数 库 ， |[Plauger 1992] 给 出 并 讨论 
了 标准 VO 函数 库 的 一 个 完整 的 实现 。 

标准 1/O 函 数 库 也 使 用 流 (stream) 这 个 称谓 ， 壁 如 “打开 一 个 输入 
流 ” 或 “ 刷 写 输出 流 ”。 不 要 把 它 和 我 们 将 在 第 31 章 中 讨论 的 流 

(STREAMS) FAAEA ° 


PEO BUSH PERS, MIRRA PJLA ° 
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。 通过 调用 fdopen， 可 以 从 任何 一 个 描述 符 创 建 出 一 个 标准 IO 
流 。 类 似 地 ， 通 过 调用 fileno， 可 以 获取 一 个 给 定 标准 IO 流 对 
应 的 描述 符 。 我 们 第 一 次 遇 到 fileno 是 在 图 6-9 中 ， 当 时 我 们 想 
在 一 个 标准 MO 流 上 调用 select。select 只 能 用 于 描述 符 ， 因 此 
我 们 不 得 不 获取 那个 标准 MO 流 的 描述 符 。 

。TCP 和 UDP 和 套 接 字 是 全 双 工 的 。 标 准 IO 流 也 可 以 是 全 双 工 的 : 只 
要 以 r+ 类 型 打开 流 即 可 ，r+ 意 味 着 读 写 。 然 而 在 这 样 的 流 上 ， 我 
们 必须 在 调用 一 个 输出 函数 之 后 插入 一 个 fflush、fseek、 
fsetpos 或 rewind 调 用 才能 接着 调用 一 个 输入 函数 。 类 似 地 ， 
调用 一 个 输入 函数 后 也 必须 插入 一 个 fseek、fsetpos 或 
rewind 调 用 才能 调用 一 个 输出 函数 ， 除 非 输入 函数 遇 到 一 个 


EOF。fseek、fsetpos 和 rewind 这 3 个 函数 的 问题 是 它们 都 调 
用 lseek， 而 lseek 用 在 套 接 字 上 只 会 失败 。 

。 解决 上 述 读 写 问题 的 最 简单 方法 是 为 一 个 给 定 套 接 字 打 开 两 个 标 
Ero: 一 个 用 于 读 ， 一 个 用 于 写 。 


例子 : 使 用 标准 VO 的 str_echo 男 数 


下 面 我 们 使 用 标准 VO 代替 read 和 writen 重 新 编写 图 5-3 中 的 TCP 
回 射 服务 器 程序 。 图 14-14 是 改 用 标准 WO 的 str_echo 画 数 版 本 。 (这 
个 版 本 存在 一 个 我 们 稍 后 要 讲解 的 问题 。) 


adviesstr_echa_sidio02.c 
1 #include ' ur.p. hi" 

2 void 

3 ctr echolirt socktd) 


chart line [M8XLINE] ; 

FILE "fpin, zout; 

toin = Fdoper[sockfd, "r"); 

fsout = Fdopeniscckfd, "w"!; 

wi le {Reet sd!) ine, MAXLINE, fpirj = NULL! 
Fputs(line, fpour): 


H oO o © -J an 


H H 


adviosir echo 3idio02.c 


Al14-14 H5 pA vEVOMstr_echok eu 
把 描述 符 转 换 成 输入 流 和 输出 流 


7~10 ”调用 fdopen 创 建 两 个 标准 WO 流 ， 一 个 用 于 输入 ， 一 个 用 
于 输出 。 把 原来 的 read 和 writen 调 用 替换 成 fgets 和 fputs 调 用 。 


如 果 以 这 个 版 本 的 str_echo 运 行 我们 的 服务 器 ， 然 后 运行 其 客 
户 ， 我 们 得 到 以 下 结果 : 


hpux % tcpcli02 206.168.112.96 


hello, world 键入 本 行 ， 但 无 回 射 输出 
and hi 再 键入 本 行 ， 仍 无 回 射 输出 
hello?? 再 键入 本 行 ， 仍 无 回 射 输出 


AD 键入 EOF 字 符 


hello, world 至 此 才 输 出 那 三 个 回 射 行 
and hi 
hello?? 


AR 8 BB AIT HE AE OFF 45 7 [EUN PUR SCAN FT AR AE Fk E 


存在 一 个 缓冲 问题 。 以 下 是 实际 发 生 的 步骤 o 


我 们 键入 第 一 行 输入 文本 ， 它 被 发 送 到 服务 右 。 

服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 

服务 器 的 标准 1/O 流 被 标准 WO 函数 库 完全 缓冲 。 这 意味 着 该 函数 

库 把 回 射 行 复制 到 输出 流 的 标准 MO 缓冲 区 ， 但 是 不 把 该 缓冲 区 中 

的 内 容 写 到 摘 述 符 ， 因 为 该 缓冲 区 未 满 。 

我 们 键入 第 二 行 输入 文本 ， 它 被 发 送 到 服务 右 。 

服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 

服务 器 的 标准 MO 画 数 库 再 次 把 回 射 行 复 制 到 输出 流 的 标准 MO 组 

nmm. 但 是 不 把 该 缓冲 区 中 的 内 容 写 到 描述 符 ， 因 为 该 缓冲 区 仍 

同样 的 博 形 发 生 在 我 们 键入 的 第 三 行文 本 上 。 

我 们 键入 EOF 字 符 ， 致 使 我 们 的 str_cli 画 数 (图 6-13) 调用 

shutdown， 从 而 发 送 一 个 FIN 到 服务 器 。 

[R25 set TCP BCG TEIN, 它 被 fgets 读 入 ， 致 使 fgets 返 回 一 个 
空 指针 。 

str echoEZiokI sos asHymainENZE (图 5-12) ， 子 进程 通 

过 调用 exit 终 止 。 

C 库 函数 exit 调 用 标准 IO 清理 函数 (APUES8162--164719) 

之 前 由 我 们 的 fputs 调 用 填 入 输出 缓冲 区 中 的 未 满 内 容 现 被 输 


m 
ARB as FoR ik, SEEUCBJCYEBERqECERNNOKH]. Mg Ax&— 
个 FIN 到 客户 ， 完 成 TCP 的 四 分 组 终止 序列 o 

我 们 的 str_c1i 函 数 收 取 并 输出 由 服务 器 回 射 的 三 行文 本 © 
str_c1i 接 着 在 其 套 接 字 上 收 到 一 个 EOFE， 客 户 于 是 终止 。 


这 里 的 问题 出 在 服务 器 中 由 标准 IJO 本 数 库 自 动 执行 的 缓冲 之 上 。 


标准 IO 函数 库 执 行 以 下 三 类 缓冲 。 


I/O: 


(1) 完全 缓冲 (fully buffering) 意味 着 只 在 出 现下 列 情况 时 才 发 生 
缓冲 区 满 ， 进 程 显 式 调用 fflush， 或 进程 调用 exit 终 止 自身 。 
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(2) 行 缓冲 (line buffering) 意味 着 只 在 出 现下 列 情况 时 才 发 生 
VO: 磁 到 一 个 换行 符 ， 进 程 调用 fflush， 或 进程 调用 exit 终 止 自 
E o 


(3) 不 缓冲 (unbuffering) 意味 着 每 次 调用 标准 1/O 输 出 函数 都 发 生 
IO ° 


标准 1/O 画 数 库 的 大 多 数 Unix 实 现 使 用 如 下 规则 。 


。 标准 错误 输出 总 是 不 缓冲 。 

。 标准 输入 和 标准 输出 完全 缓冲 ， 除 非 它们 指 代 终 端 设 备 〈 这 种 情 
况 下 它们 行 缓冲 ) 

。 所 有 其 他 WO 流 都 是 完全 绥 冲 ， 除 非 它 们 指 代 终 端 设备 (这 种 情况 
下 它们 行 缓冲 ) 


既然 套 接 字 不 是 终端 设备 ， 图 14-14 中 的 str_echo 函 数 的 上 壕 问 
题 就 在 于 输出 流 (fpout) 是 完全 缓冲 的 。 本 问题 有 两 个 解决 办 法 。 
第 一 个 办 法 是 通过 调用 setvbuf 人 迫使 这 个 输出 流 变 为 行 缓冲 。 第 二 个 
办 法 是 在 每 次 调用 fputs 之 后 通过 调用 fflush 强 制 输出 每 个 回 射 
行 。 然 而 在 现实 使 用 中 ， 这 两 种 办 法 都 易于 犯错 ， 与 Nagle 算 法 (如 
7.9 节 所 述 ) 的 交互 可 能 也 成 问题 。 大 多 数 情况 下 ， 最 好 的 解决 办 法 是 
彻底 避免 在 套 接 字 上 使 用 标准 W/O 函数 库 ， 并 且 如 3.9 节 所 壕 在 缓冲 区 
而 不 是 文本 行 上 执行 操作 。 当 标准 1O 流 的 便利 性 大 过 对 缓冲 带 来 的 
bug 的 担忧 时 ， 在 套 接 字 上 使 用 标准 VO 流 也 可 能 可 行 ， 但 这 种 情况 很 
罕见 。 


要 注意 的 是 标准 MO 库 的 某 些 实现 在 描述 符 大 于 255 情 况 下 还 有 一 
个 问题 。 这 一 点 对 于 需 处 理 大 量 摘 述 符 的 网 络 服务 如 可 能 也 十 一 个 问 
题 。 检 查 你 的 <stdio.h> 头 文件 中 定义 的 FILE 结 构 ， 看 看 存放 描述 
和 从 的 变量 是 什么 类 型 。 


14.9 ”高 级 轮 询 技术 


我 们 已 在 本 章 早先 讨论 过 为 套 接 字 操 作 设 置 时 间 限 制 的 若干 方 
法 。 如 今 许多 操作 系统 还 提供 其 他 可 选 方法 ， 它 们 具备 我 们 已 在 第 6 章 
中 讲解 过 的 select 和 poll 这 两 个 函数 的 特性 。 这 些 方法 尚未 被 
POSIX 采 纳 ， 而 且 在 不 同 实现 上 存在 细微 差异 ， 因 此 使 用 这 些 机 制 的 
R20 。 本 节 介 绍 两 个 机 制 ， 其 他 机 制 与 它们 类 
以 。 


14.9.1 /dev/poll 接 口 


Solaris 上 名 为 /dev/po11 的 特殊 文件 提供 了 一 个 可 扩展 的 轮 询 大 
量 描述 符 的 方法 。select 和 po11 存 在 的 一 个 问题 是 ， 每 次 调用 它们 
都 得 传递 竺 查询 的 文件 描述 符 。 轮 询 设备 能 在 调用 之 间 维 持 状 态 ， 
此 轮 询 进程 可 以 预先 设置 好 竺 查询 描述 符 的 列表 ， 然 后 进入 一 个 循环 
等 待 事件 发 生 ， 每 次 循环 回来 时 不 必 再 次 设置 该 列表 。 
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打开 /dev/poll 之 后 ， 轮 询 进程 必须 先 初 始 化 一 个 po11fd 结 构 
( 即 p011 函 数 使 用 的 结构 ， 不 过 本 机 制 不 使 用 其 中 的 revents 成 
员 ) 数组 ， 再 调用 write 往 /dev/poll 设 备 上 写 这 个 结构 数组 以 把 它 
传递 给 内 核 ， 然 后 执行 ioct1 的 DP_POLL 命 令 阻 塞 自 身 以 等 待 事件 发 
生 。 传 递 给 ioct1 调 用 的 结构 如 下 : 


struct dvpoll { 
struct pollfd* dp_fds; 
int dp_nfds; 
int dp_timeout; 


} 


其 中 dp_fds 成 员 指 回 一 个 缓冲 区 ， 供 ioct1 在 返回 时 存放 一 个 
polL1Lfd 结 构 数 组 。dp_nfds 成 员 指定 该 缓冲 区 的 大 小 。ioct1 调 用 
将 一 直 阻 塞 到 任何 一 个 被 轮 询 描述 符 上 发 生 所 关心 的 事件 ， 或 者 流逝 
时 间 超 过 经 由 dp_timeout 成 员 指定 的 量 秒 数 为 止 。dp_timeout 指 


定 为 0 将 导致 oct1 立 即 返回 ， 从 而 提供 了 使 用 本 接口 的 非 阻 塞 手段 。 
dp_timeout 指 定 为 -1 表示 没有 超时 设置 。 


我 们 把 图 6-13 中 使 用 select 的 str_cli 函 数 改 为 图 14-15 中 使 
用 /dev/po11 的 版 本 。 


veviesti cli pol03 c 
1 #include "unp. h" 
2 #include <sye/devpoll .上 > 


3 veid 

4 str_cli(FILE *fz, in: socxid) 

sí 

é inz stdineof; 

7 char buf [KAXLINE]; 

8 int nj 

9 inp wfdy 

-0 etruct rclilfée  pcllifdiz!; 

a2 etruct dvpoll dcpoll; 

22 } i; 

-3 in: result; 

L4 wtc ~ Open i "/dew/neli", O RZWR, Cl, 

25 pollfi[0].f3 = fileuo(fp]; 

16 pollfd[0].events = POLLIN; 

= pollfd[2].zeoents = 0; 

-8 polltf2[ll.fd - cockid: 

2g pollfd|1l.evcento = POLLIN: 

20 polltdlll.rcvento = 0; 

21 Write'iafd, pollfd, sizeofiístzuct pollfd; + 2]; 

22 etcineot = ©; 

23 for Cay if 

2a /* block until /dev/poll cayo comething is ready */ 
25 dopoll.dp timeout = -1; 

26 dopoil.dp_nfóc = a: 

27 dopoll.óp_fác = vcllfd; 

2% recult = Ioctl(wfd, DP IOLL, &dopcll); 

29 /* loop through ready file descriptors */ 

30 for (i - 0; 1 < result: iie) | 

31 if {dopoll .dp idasiil ,fd == Bockfd) | 

32 /* socket is readable */ 

33 if | (n = Readisockfd, bof, MAXLTNR}! == 0) { 
34 itf |stcineof == 1l 

35 return; /* normal termination */ 
36 else 

37 erz guiL[*sL- cli: server Leznicatel poemelurely"); 
38 } 

39 Wrote (cilenoistdeut), buf, n); 

40 ) else { 

AL /* inzut is readable */ 

42 if | (n = ReadiEilenc(fp), buf, MAXLINE)) == ĉi 4 
43 Btdineof = 1; 

44 Shutdown (sockid, SHUT WR); /* send FIN */ 
45 continue; 

46 } 

47 Writen(socktd, kuf, n); 

48 I 

49 ] 

s] 

Sl) 


vdviewste cii pott03 c 


图 14-15 使 用 /dev/pol1 的 str_cli 函 数 


向 /dev/pol1l 提 供 描述 符 列表 


14-21 填写 好 一 个 po11fd 结 构 数 组 后 ， 把 它 传递 
给 /dev/poll。 本 例子 只 需要 2 个 描述 符 ， 我 们 于 是 使 用 静态 数组 。 
使 用 /dev/po11 的 现实 程序 可 能 需要 监视 成 百 个 甚至 上 千 个 描述 符 ， 
它们 的 这 个 数组 有 可 能 是 动态 分 配 的 。 


等 等 有 事 可 做 

24-28 让 进程 阻塞 在 ioct]1 调 用 上 ， 等 竺 有 事 可 做 。ioct1 的 
返回 值 就 是 已 就 绪 描 述 符 的 个 数 。 
HAHI 

30-49 ”本 例子 的 代码 相当 简单 ， 因 为 我 们 知道 就 绪 的 描述 符 不 


外 乎 sockfd 和 输入 文件 接 述 符 。 规 模 较 大 的 程序 描述 符 志 查 工作 比 
较 复 杂 ， 可 能 涉及 往 线 程 派遣 任务 。 
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14.9. kqueue#H 


FreeBSD 随 4.1 版 本 引入 了 Kkqueue 接 口 。 本 接口 允许 进程 器 内 核 
注册 描述 所 关注 kKdqueue 事 件 的 事件 过 滤器 (event filter) 。 事 件 除 了 
与 select 所 关注 类 似 的 文件 VO 和 超时 外 ， 还 有 异步 WO、 文 件 修 改 通 
知 (例如 文件 被 删除 或 修改 时 发 出 的 通知 ; 、 进 程 跟踪 (例如 进程 调 
用 exit 或 fork 时 发 出 的 通知 ) 和 信号 处 理 。kqueue 接 口 包 括 如 下 2 
个 函数 和 1 个 宏 。 


#include <sys/types.h> 
#include <sys/event.h> 
#include <sys/time.h> 


int kqueue(void) ; 
int kevent(int kg, const struct kevent *changelist, int nchanges, 


struct kevent *eventlist, int nevents, 
const struct timespec *timeout); 
void EV_SET(struct kevent *kev, uintptr_t ident, short filter, 
u_short flags, u_int fflags, intptr_t data, void 
*udata); 


kqueue 画 数 返 回 一 个 新 的 kqueue 描 述 符 ， 用 于 后 续 的 kevent 
调用 中 。kevent 画 数 既 用 于 注册 所 关注 的 事件 ， 也 用 于 确定 是 否 有 
所 关注 事件 发 生 。changelist 和 nchanges 这 两 个 参数 给 出 对 所 关注 事件 
做 出 的 更 改 ， 若 无 更 改 则 分 别 取 值 NULL 和 0 © ° ll nchanges 10, 
kevent 函 数 就 执行 changelist 数 组 中 所 请 求 的 每 个 事件 过 滤器 更 改 。 
其 条 件 已 经 触发 的 任何 事件 (包括 刚 在 changelist 中 增设 的 那些 事件 ) 
由 kevent 芳 数 通 过 eventlist 参 数 返回 ， 它 指 癌 一 个 由 nevents 个 元 素 构 成 
的 kevent 结 构 数 组 。kevent 函 数 在 eventlist 中 返回 的 事件 数 日 作为 函 
数 返 回 值 返 回 ，0 表 示 发 生 超 时 。 超 时 通过 timeout 参 数 设 置 ， 其 处 理 类 
似 select: NULL 阻 塞 进程 ， 非 0 值 timespec 指 定 明 确 的 超时 值 ，0 
值 timespec 执 行 非 阻 塞 事件 检查 。 注 意 ， 
结构 不 同 于 select 使 用 的 timeval1 结 构 ， 前 者 的 分 辨 率 为 纳 秒 ， 后 
者 的 分 辨 率 为 微 秒 。 


kevent 结 构 在 头 文件 <sys/event .h> 中 定义 : 


struct kevent { 
uintptr_t ident; /* identifier (e.g., file descriptor) */ 
short filter; /* filter type (e.g., EVFILT_READ) */ 
u_short flags; /* action flags (e.g., EV_ADD) */ 


u_int fflags; /* filter-specific flags */ 
intptr t data; /* filter-specific data */ 
void *udata; /* opaque user data */ 


其 中 flags 成 员 在 调用 时 指定 过 滤器 更 改行 为 ， 在 返回 时 额外 给 出 
条 件 ， 如 图 14-16 所 示 。 


EV CEVAD —— T WES) GAA BEANN Disease| e [| ^ 增设 事件 ， 自 动 启 = FEL 同时 指定 gw DISABLE 
EV_CLEAR 月 户 获 取 后 复位 事件 状态 

EV_DELETS MIA BEE 

EV DISABLS | 林 用 束 件 但 不 删除 

EV FNARI.3 exi AT ide 用 的 事件 

Ev ONESHOT | 侧 发 一 次 后 删除 事件 


EV EOF : 4 sore 
EV_ERROR REAR: errnofffzéatal ia 


图 14-16 ”kevent 结 构 的 flags 成 员 


filter 成 员 指定 的 过 滤 右 类 型 如 图 14-17 所 示 。 


EVFILT_PROC 进程 exit、fork 或 exec 事 件 
EVFILT READ 描述 符 可 读 ， 类 似 select 


EVFILT SIGNAL 收 到 信和 号 

SE pera V] BAPE ek UTER E IY as 
ENE LUT MVNODE 文件 修改 和 删除 事件 
EVFILT WRITE 描述 符 可 写 ， 类 似 select 


图 14-17 kevent 结 构 的 filter 成 员 


我 们 把 图 6-13 中 使 用 select 的 str_cli 函 数 改 为 图 14-18 中 使 用 
kqueue 的 版 本 。 


1 #incluce "unp.h* 


adviesstr_cli_kquene’4.c 


2 void 

3 str C.i(PZLE *fp, int sockta} 

4 1 

5 int ko, i, n, new, stdinseoF = 2, isfile; 

€ char buf [M^X.INE]; 

j etruct kevent kev [2] : 

t struct timespec ts; 

9 struct star gt; 

10 isfile = ((fsrart(fileno(^n;, 687) == 0) && 

11 (sz -St ose & S | TENT) == $ TFREG) ; 

12 EV SET(&kev | 0], Filenoífp). EVFILT READ, EV BDC, 0, 0, NULL): 
13 RV SET(&kev| 1), sock=d, EVPFILT | READ, EV ADD, 0, 0, NMLL); 

14 kg = Kgueue!) ; 

15 ts.tv_sec - ts.tv_nsec - 0; 

16 Kevent (kz, kev, 2, NULL, 0, &tsl; 

7 for (: ; ) { 

16 nev = Kevent(kq, NULL, 2, kev, 2, NULL); 

19 tor (i = G; 1 < nev; i++) | 
20 if (xev(i].ident == eockfd) |  /* socket is readable */ 
21 if | (n - Read{(sockfd, buf, MAXLIN3)) -- 0} [ 
22 if istdinsof == 1) 
23 return; /* normal ternination */ 

24 else 

25 err guit ("sir cli: server berminabed prematurely"); 
26 } 
27 Writeiflilenslstâouti, buf, m: 
26 } 
29 if /xev[il.ident == fileno(=p!) | /* input is readable */ 
36 n = Read(fileno(fz]l, buf, MAALINE:; 

31 if in > 0) 

32 Writen(sockfd, EuE, ni; 

33 if in == 0 || lisE:1e && n == kev[i].data)! 

34 ctdineof = 1; 

35 Shatdown(sockfd, SHUT WR);  /* send FIN */ 
36 kev [i] .flags mw áV DELETE; 

35 Kevent(kq, &ksv[i], 1, NULL, 0, bts); /* remove kevent */ 
38 continue: 

39 } 
ac ) 
41 ) 
42 ) 
43 ] 


图 14-18 fiHikqueuefstr clilZk& 


判定 文件 指针 是 否 指 向 文件 


advierste_cit_Kquctev4.c 


10~: 11 ae ee TA BUR T SPITE KE 


文件 、 管 道 还 是 终 


为 kqueue 设 置 kevent 结 构 


因此 我 们 调用 fstat 判 定 由 调用 者 指定 的 文件 
指针 是 否 关联 二 个 文件 ? 本 判定 手段 以 后 还 会 用 到 。 


12-13 ”使 用 EV_SET 宏 设置 2? 个 kevent 绪 构 ， 它 们 都 指定 类 型 
为 读 的 过 滤器 (EVFILT_READ) ， 并 请 求 把 本 事件 加 入 该 过 滤器 中 
(EV_ADD) ° 


创建 kqueue 并 增设 过 滤器 


14-16 调用 kqueue 取 得 一 个 kqueue 描 述 符 ， 把 超时 值 设 为 0 
以 便 非 阻塞 地 调用 kevent， 以 设置 好 的 kevent 结 构 数 组 作为 过 小 器 
更 改 请 求 调用 kevent » 


无 限 循环 ， 阻 塞 在 kevent 中 

17-18 进入 无 限 循 环 ， 每 次 循环 回来 都 阻塞 在 kevent 中 。 
次 调用 kevent 指 定 的 过 滤器 更 改 列表 为 NULL (因为 我 们 仅仅 关注 早 
已 注册 过 的 事件 ) ， 超 时 参数 为 NULL (永远 阻塞 ) 。 
裔 查 返 回 的 事件 


19 Jj foEIBIBUSET SHTJTATR 


套 接 字 变 为 可 读 
20-28 ”这 上 段 代码 与 图 6-13 一 样 。 
输入 变 为 可 读 


29-40 ”这 上 段 代 码 类 似 图 6-13， 不 过 为 了 处 理 kqueue 的 EOF 报 告 
方式 ， 在 代码 结构 上 稍 有 调整 。 对 于 管道 和 终端 ，kqueue 就 像 
select 那 样 返回 一 个 可 读 指 示 表 示 有 一 个 EOF 竺 处理 。 然 而 对 于 文 
件 ，kqueue 只 是 在 kevent 结 构 的 data 成 员 中 返回 文件 中 剩余 字 下 
数 ， 并 假设 应 用 进程 能 够 由 此 获悉 是 否 到 达 文 件 尾 。 我 们 于 是 首先 把 
本 处 理 循 环 重 构成 若 读 入 字 节 数 非 0 则 把 数据 写 出 到 网 络 。 接 着 把 EOF 
判断 条 件 改 为 读 入 字 节 数 为 0 (或 者 对 于 文件 而 言 ， 读 入 字 节 数 等 于 文 
件 中 剩余 字 节 数 ) 。 最 后 ， 把 图 6-13 中 使 用 FD_CLR 从 描述 符 集 中 删除 


| 处 理 它们 。 


输入 描述 符 的 代码 改 为 设置 EV_DELETE 标 志 调 用 kevent 从 内 核 维护 
的 过 滤 右 中 删除 本 事件 。 


14.9.3 ”建议 


束 这 些 新 近 发 展 中 的 控 口 而 言 ， 阅 读 它 们 特定 于 操作 系统 具体 版 
本 的 文档 时 必须 小 心 。 这 些 接口 在 不 同 版 本 之 间 往 往 存 在 细微 的 差 
Al, WARE RS) TATE TERE Aa LTERJAH TI ° 


尽管 总 地 说 来 应 该 避免 编写 不 可 移植 的 代码 ， 然 而 对 于 一 个 任务 
繁重 的 网 络 应 用 程序 而 言 ， 使 用 各 种 可 能 的 方式 为 它 在 特定 的 主机 系 
统 上 进行 优化 也 相当 普通 。 


14.10 T/TCP: 事务 目的 TCPO 


T/TCP 是 对 TCP 进 行 过 略微 修改 的 一 个 版 本 ， 能 够 避免 近 来 彼此 
通信 过 的 主机 之 间 的 三 路 握手 。 ,关于 TrTCP 详 见 TCPV3、 RFC 1379 
ae 1992b| 和 RFC 1644 | Braden 1994 | 


T/TCP 最 广 为 流传 的 实现 是 在 FreeBSD 中 。 


T/TCP 能 够 把 SYN、FIN 和 数据 组 合 到 单个 分 节 中 ， 前 提 是 数据 的 
大 小 小 于 MSS。 图 14-19 展 示 最 小 T/TCP 事 务 的 时 间 线 。 第 一 个 分 节 是 
由 客户 的 单个 sendto 调 用 产生 的 SYN ` FIN 和 和 数据。 该 分 FERT 
connect ` writefZlüshutdowndZt —4 V HABE o ARB Ss TAH Ae 
的 套 接 字 函 数 调 用 步骤 : socket ^ bind、 Li REN Ceu. 其 中 
。 服 务 器 用 send 发 回 其 应 答 并 关闭 套 接 

。 这 使 得 服务 器 在 同一 个 分 和 中 辐 客 户 发 出 SYN、FIN 和 应 答 。 比 
PA. 19401 2-5, RESME E NEPR 913 8I PIT UP 
(T/TCP 需 3 个 ，TCP 需 10 个 ，UDP 需 2 个 ) ， 而 且 客 户 从 初始 化 连接 
到 发 送 一 个 请 求 再 到 读 取 相应 应 答 所 花费 的 时 间 也 减少 了 一 个 RIT 。 


服务 器 
| socket, Lind, listen 
| accept | |H3E 
socket SYN Pine. ge accey 阻塞 ) 
send-o E iio ath Ai ( itis R) "E 
7 " 3) x ce cio ab NN acceoLjlx|s 
read (pk Ap. 
Sacs readji k 
< 服务 器 处 理 请 求 > 
(Ww) seraly 答 
h — 
SYN. N. FIN. SUIS diis Cn close 
— 4 apni 7 


readjia |l 


服务 FFIN 一 一 一 


图 14-19 ”最 小 TXTCP 事 务 的 时 间 线 


T/TCP 的 优势 在 于 TCP 的 所 有 可 靠 性 (序列 号 、 超 时 、 重 传 ， 
等 ) 得 以 保留 ， 而 不 像 UDP 那 样 把 可 靠 性 推 给 应 用 程序 去 实现 。 


T/TCP 同 样 维 持 TCP 的 慢 启 动 和 拥塞 避免 措施 ，UDP 应 用 程序 却 往往 
缺乏 这 些 特性 。 


这 里 我 们 名 略 了 一 些 细 下， 它们 都 在 TCPv3 中 讨论 。 举 例 来 说 ， 
客户 与 服务 恬 第 一 次 通信 时 三 路 握手 是 需要 的 。 不 过 将 来 只 要 两 端 各 
目 高 速 缓存 的 一 些 信息 都 没 过 时 ， 并 且 没 有 一 端的 主机 般 溃 并 重 局 
过 ， 那 么 就 可 以 避免 三 路 握手 。 图 14-19 展 示 的 3 个 分 节 构 成 最 少 请 求 - 
应 答 交 换 。 如 果 或 者 请 求 或 者 应 答 超 过 一 个 分 志 的 承载 量 ， 那 就 需要 
额外 的 分 万。 术语 “事务 ”的 含义 是 客户 的 请 求 与 服务 需 的 应 答 。 铺 见 
的 事务 例子 有 DNS 请 求 与 服务 器 的 应 答 以 及 HTTP 请 求 与 服务 器 的 应 
答 。 aie 于 指称 两 阶段 提交 协议 (two-phase commit 
protococl) ° 


为 了 处 理 TTCP， 套 接 字 API 需 作 些 变动 。 我 们 指出 ， 在 提供 
T/TCP 的 系统 上 TCP 应 用 程序 无 需 任 何 改动 ， 除 非 要 使 用 T/TCP 的 特 
[: ^ 所 有 现 有 TCP 应 用 程序 继续 使 用 我 们 已 经 讲述 过 的 套 接 字 API 工 


。 客户 调用 sendto， 以 便 把 数据 的 发 送 结合 到 连接 的 建立 之 中 。 
该 调用 替换 单独 的 connect 调 用 和 write 调用 。 服 务 器 的 协议 地 
址 改 为 传递 给 sendto 而 不 是 connect ° 

新 增 一 个 输出 标志 MSG_EOF (参见 图 14-6) ， 用 于 指示 本 套 接 字 
上 不 再 有 数据 待 发 送 。 该 标志 人 允许 我 们 把 shutdown 调 用 结合 到 
输出 操作 (send 或 sendto) 之 中 。 给 一 个 sendto 调 用 同时 指 
定 本 标志 和 服务 器 的 协议 地 址 有 可 能 导致 发 送 单个 含有 SYN ^ 
FIN 和 数据 的 分 节 。 我 们 还 在 图 14-19 中 指出 ， 服 务 器 发 送 应 答 使 
用 的 是 send 而 不 是 write， 其 原因 在 于 为 了 指定 MSG_EOF 标 
志 ， 以 便 随 应 答 一 起 发 送 FIN。 (不 要 把 这 个 新 标志 与 已 有 的 
ie coals 后 者 为 面向 记录 的 协议 指示 记录 结束 条 
fk) o 

新 定义 一 个 级 别 为 TPPROTO_TCP 的 套 接 字 选 项 TCP_NOPUSH ° 
本 选项 防止 TCP 只 为 腾空 套 接 字 发 送 缓冲 区 而 发 送 分 和 。 当 某 个 
客户 准备 以 单个 sendto 发 送 一 个 请 求 时 ， 如 果 该 请 求 大 小 超过 
MSS， 它 就 应 该 为 相应 套 接 字 设置 本 选项 ， 以 减少 所 发 送 分 市 的 
数目 。TCPv3 第 47~-49 页 详细 讨论 了 这 个 新 套 接 字 选 项 。 

想 跟 一 个 服务 器 建立 连接 并 且 使 用 TATCP 发 送 一 个 请 求 的 客户 应 
该 调用 socket、setsockopt (7FJHTCP. NOPUSH3X:JJi) 和 sendto 


( 若 只 有 一 个 请 求 竺 发送 则 指定 MSG_EOF 标 志 ) ° WR 
setsockopt 返 回 ENOPROTOOPT 错 误 或 者 sendto 返 回 
ENOTCONN 错 误 ， 那 么 本 主机 不 文 持 TTCP。 这 种 情况 下 客户 可 以 
干脆 调用 connect 和 write， 加 上 可 能 后 跟 的 shutdown (如 果 
只 有 一 个 请 求 待 发 送 ) ° 
服务 器 所 需 的 唯一 变动 是 ， 如 果 服 务 絮 想 随 应 答 一 起 发 送 FIN， 
它 就 应 该 指定 MSG_EOF 标 志 调 用 send 以 发 送 应 答 ， 而 不 是 调用 
write 以 发 送 应 答 。 

T/TCP 的 编译 时 测试 可 以 使 用 伪 代 码 #ifdef MSG_EOF ° 


TCPv3 的 附 孙 B 包 含 TTCP 客 户 程序 和 服务 器 程序 的 例子 。 


14.11 小 结 
在 套 接 字 操作 上 设置 时 间 限 制 的 方法 有 三 个 : 


。 使 用 alarm 函 数 和 SIGALRM 信 号 ; 
。 使 用 由 select 提 供 的 时 间 限 制 ; 
。 使 用 较 新 的 SO_RCVTIME0 和 SO_SNDTIME0 套 接 字 选 项 。 


第 一 个 方法 易于 使 用 ， 不 过 涉及 信号 处 理 ， 而 信和 号 处 理 正 如 我 们 
将 在 20.5 节 看 到 的 那样 可 能 导致 竞争 条 件 。 使 用 select 意 味 着 我 们 阻 
塞 在 指定 过 时 间 限 制 的 这 个 函数 上 ， 而 不 是 阻 套 在 read、write 或 
。 第 三 个 方法 也 易于 使 用 ， 不 过 并 非 所 有 实现 都 提 


recvmsg 和 sendmsg 是 所 提供 的 5 组 VO 函数 中 最 为 通用 的 。 它 们 
组 合 了 如 下 能 力 : 指定 MSG_xxx 标 志 (出 自 recv 和 send) ， 返 回 或 指 
定 对 端的 协议 地 址 (出 自 recvfrom 和 sendto) ， 使 用 多 个 缓冲 区 

(出 目 readv 和 writev) 。 此 外 还 增加 了 两 个 新 的 特性 ， 给 应 用 进 
程 返回 标志 ， 接 收 或 发 送 辅助 数据 。 


我 们 在 文中 讲述 了 10 种 不 同 格式 的 辅助 数据 ， 其 中 6 种 是 随 IPv6 新 
定义 的 。 辅 助 数据 由 一 个 或 多 个 辅助 数据 对 象 构成 ， 每 个 对 象 都 以 一 
个 cmsghdr 结 构 打 头 ， 它 指定 数据 的 长 度 、 协 议 级 别 及 类 型 。5 个 以 
CMSG_ 打 头 的 函数 可 用 于 构建 和 分 析 辅 助 数据 。 


C 标 准 IO 函数 库 也 可 以 用 在 套 接 字 上 ， 不 过 这 人 么 做 将 在 已 经 由 
TCP 提 供 的 缓冲 级 别 之 上 新 增 一 级 缓冲 。 实 际 上 ， 对 由 标准 VO 画 数 库 
执行 的 绥 冲 缺乏 了 解 是 使 用 这 个 钞 数 库 最 常见 的 问题 。 上 既然 套 接 字 不 
古 终 并 设备 ， 这 个 潜在 问题 的 常用 解决 办 法 束 是 把 标准 1/O 流 设置 成 不 
缓冲 ， 或 者 干脆 不 要 在 僚 接 字 上 使 用 标准 IO 。 


许多 厂家 提供 轮 询 大 量 事件 却 没有 select 和 poll 所 需 开 销 的 高 
级 方法 。 尽 管 应 该 避免 编写 不 可 移植 的 代码 ， 有 时 候 性 能 改善 的 收益 


会 重 于 不 可 移植 造成 的 风险 。 


T/TCP 是 对 TCP 的 一 个 简单 增强 版 本 ， 能 够 在 客户 和 服务 絮 近 来 
彼此 通信 过 的 前 提 下 避免 三 路 握手 ， 使 得 服务 器 对 于 客户 的 请 求 更 快 
地 给 出 应 答 。 从 编程 角度 看 ， 客 户 通 过 调用 sendto 而 不 是 通常 的 
connect、write 和 shutdown 调 用 序列 发 挥 T/TCP 的 优势 。 


习题 


14.1 在 图 14-1 中 ， 如 果 当 我 们 重新 设置 SIGALRM 的 信号 处 理 范 
数 时 进程 未 曾 建 立 过 SIGALRM 的 任何 信号 处 理 函 数 ， 那 将 会 发 生 什 
A? 


14.2 ”在 图 14-1 中 ， 如 果 进 程 已 设置 了 一 个 alarm 定 时 器 ， 
connect_timeo 就 显示 一 个 警告 。 修 改 该 函数 ， 使 得 它 在 connect 


调用 之 后 和 目 身 返回 之 前 重新 设置 这 个 alarm 定 时 器 。 


143 ”如 下 修改 图 11-11: 在 调用 read 之 前 指定 MSG_PEEK 标 志 调 
用 recv，recv 返 回 后 再 以 FIONREAD 命 令 调 用 ioct1， 并 显示 已 排 
队 在 套 接 字 接收 缓冲 区 中 的 字 节 数 ， 然 后 调用 read 真 正 读 入 数据 。 


14.4 ”如 果 进 程 目 然 掉 出 main 画 数 末尾 ， 而 不 是 调用 exit 退 
出 ， 标 准 1/O 缓 冲 区 中 尚未 输出 的 数据 将 会 发 生 什么 ? 


14.5 ”按照 图 14-14 之 后 讲解 的 两 个 方法 修改 图 中 程序 ， 验 证 它们 
确实 能 够 解决 缓冲 问题 。 


四 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 180~181 
页 ， 第 2 版 中 文 版 为 第 148~149 页 。 一 ”编者 注 


@ 本 世 为 本 书 的 第 2 版 的 内 容 ， 本 版 的 新 作者 删 斥 了 这 一 全 。 这 部 分 内 
容 还 是 很 重要 的 ， 故 此 处 保留 了 这 一 部 分 内 容 。 一 一 译 者 注 


第 15 间 ”Unix 域 协议 


15.1 Hut 


Unix 域 协议 并 不 是 一 个 实际 的 协议 族 ， 而 是 在 单个 主机 上 执行 客 

户 /服务 器 通信 的 一 种 方法 ， 所 用 API 就 是 在 不 同 主机 上 执行 客户 /服务 

堪 通 信 所 用 的 API ( 套 接 字 API) 。 本 系列 书 第 2 卷 介绍 的 进程 间 通 信 

(IPC) 实际 上 整 是 单个 主机 上 的 客户 /服务 器 通信 ，Unix 域 协议 因此 

可 视 为 IPC 方 法 之 一 。TCPv3 的 第 三 部 分 提供 了 在 源 自 Berkeley 的 内 核 
中 真正 实现 Unix 域 套 接 字 的 细节 。 


Unix 域 提供 两 类 套 接 字 : TIMET (类 似 TCP) MARRE 
接 字 (类 似 DUP) 。 尽 管 也 提供 原始 套 接 字 ， 不 过 它 的 语义 不 曾 见于 
任何 文档 ， 作 者 们 也 未 见 过 任何 使 用 它 的 程序 ，POSIX 也 没有 它 的 定 
FE 


使 用 Unix 域 套 接 字 有 以 下 3 个 理由 。 


(1) 在 源 自 Berkeley 的 实现 中 ，Unix 域 套 接 字 往往 比 通信 两 端 位 于 
同一 个 主机 的 TCP 套 接 字 快 出 一 倍 〈TCPv3 第 223 一 224 页 ) °X 
Window System 发 挥 了 Unix 域 套 接 字 的 这 个 优势 。 当 一 个 X11 客户 启动 
并 打开 到 X11 服务 器 的 连接 了 时， 该 客户 检查 DISPLAY 环 境 变 量 的 值 ， 
其 中 指定 服务 器 的 主机 名 、 窗 口 和 屏幕 。 如 果 服 务 器 与 客户 处 于 同一 
个 主机 ， 客 户 就 打开 一 个 到 服务 器 的 Unix 域 字 节 流连 接 ， 否 则 打开 一 
个 到 服务 器 的 TCP 连 接 。 
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(2) Unix 域 套 接 字 可 用 于 在 同一 个 主机 上 的 不 同 进程 之 间 传 递 描述 
符 。 我 们 将 在 15.7 下 提供 一 个 传递 朱 述 符 的 完整 例子 。 


(3) Unix 域 套 接 字 较 新 的 实现 把 客户 的 凭证 (用户 ID 和 组 ID) 提供 
给 服务 器 ， 从 而 能 角 提 供 人 外 的 安全 检查 措施 。 我 们 将 在 15.8 季 讲 和 
凭证 的 收发 。 


Unix 域 中 用 于 标识 客户 和 服务 器 的 协议 地 址 是 普通 文件 系统 中 的 
路 径 名 。 我 们 知道 ITPv4 协 议 地 址 由 一 个 32 位 地 址 和 一 个 16 位 端口 号 构 
成 ，IPv6 协 议 地址 则 由 一 个 128 位 地 址 和 一 个 16 位 端口 号 构成 。 这 些 路 
径 名 不 是 普通 的 Unix 文 件 ， 除非 把 它们 和 Unix 域 套 接 字 关 联 起 来 ， 否 
则 无 法 读 写 这 些 文件 。 


15.2 ”Unix 域 套 接 字 地 址 结构 


图 15-1 列 出 了 在 头 文 件 <sys/un.h> 中 定义 的 Unix 域 套 接 字 地 址 
结构 。 


struct sockadér un í 


sa_family_t sun family; /* AF LOCAL */ 
char sur path[1C4]; /* null-terminated pathname */ 


jx 
图 15-1 ”Unix 域 套 接 字 地 址 结构 sockaddr_un 


BSD 早 期 版 本 定义 sun_path 数 组 的 大 小 为 108 字 节 ， 而 不 是 图 中 
所 示 的 104 字 和 节 。POSIX 规 范 没 有 定义 sun_path 数 组 的 大 小 ， 而 且 明 
确 警示 应 用 进程 不 应 该 假设 一 个 特定 长 度 。 应 用 进程 应 该 在 运行 时 刻 
使 用 sizeof 运 算 符 得 出 本 结构 的 长 度 ， 再 验证 一 个 路 径 名 是 否 适 合 
存放 到 其 中 的 sun_path 数 组 。 数 组 长 度 很 可 能 在 92 到 108 之 间 ， 而 不 
是 足以 存放 任何 路 径 名 的 更 大 的 值 。 存 在 这 些 限 制 缘起 于 漳 自 4.2BSD 
的 实现 细节 ， 要 求 本 结构 适合 装 入 一 个 128 字 节 的 mbuf (一 种 内 核 内 
存 缓冲 区 ) 


存放 在 sun_path 数 组 中 的 路 径 名 必须 以 空 字 符 结 尾 。 实 现 提 供 
的 SUN_LEN 宏 以 一 个 指向 sockaddr_un 结 构 的 指针 为 参数 并 返回 该 
结构 的 长 度 ， 其 中 包括 路 径 名 中 非 空 字 节 数 。 未 指定 地 址 通过 以 空 字 
符 串 作为 路 径 名 指示 ， 也 就 是 一 个 sun_path[9] 值 为 0 的 地 址 结构 。 
它 等 价 于 IPv4 的 INADDR_ANY 常 值 以 及 IPv6 的 IN6ADDR_ANY_INIT 常 
值 。 


POSIX 把 Unix 域 协议 重新 命名 为 “本 地 IPC”， 以 消除 它 对 于 Unix 探 
作 系 统 的 依赖 。 历 史 性 常 值 AF_UNIX 变 为 AF_LOCAL。 尺 管 如 此 ， 我 
们 依然 使 用 “Unix 域 ”这 个 称谓 ， 因 为 这 已 成 为 它 约定 俗 成 的 名 字 ， 与 
支撑 它 的 操作 系统 无 天 。 男 外 ， 尽 管 POSIX 努 力 使 它 独立 于 操作 系 
统 ， 它 的 套 接 字 地 址 结构 仍然 保留 _un 后 级 。 
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例子 : Unix 域 套 接 字 的 bind 调 用 


图 15-2 中 的 程序 创建 一 个 Unix 域 套 接 字 ， 往 其 上 bind 一 个 路 径 
名 ， 绸 调用 getsockname 输 出 这 个 绑 定 的 路 径 名 。 


unizdoneiifonixbine.c 


1 #incluce "unp.lh* 
2 int 
main(int argc, char **argv) 


int socktd; 
€ socklenr t len. 
7 struct sockaddroun addel, addr2; 
€ a= (aroc != 2) 


err quití("usage: unixbiad <pathnans>") ; 


10 seckfd = Seeker AF LOCAL, SOCK STREAM, 0): 
il unlink (argv[i]); /* OK if tria fails / 

12 bzerzo(Sazdr-, aizeof(addrz1.); 

13 edd-l.sur family = AF LOCÀL; 

14 strncpyíadiri.sun peth, argv 11], sizeof(zddr1.sur | path! 21): 

15 Bind(occktd, (SA *)| &addrz1, SUN LzN(&addrl);; 

1€ len = s:zecf(íaddr2!; 

1j Getsocknsma;sockfd, (SA *) &addr2, «len; 

1§ prants ("bound name = *5, returned len = *d'n", asdr2.sum_path, len]; 
19 exit (0); 

20 ) 


站 


图 15-2 ”给 一 个 Unix 域 套 接 字 bind 一 个 路 径 名 


删除 路 径 名 


11 我 们 调用 bind 捆 绑 到 套 接 字 上 的 路 人 径 名 就 十 命令 行 参数 。 
如 果 文 件 系统 中 已 存在 该 路 径 名 ，bind 将 会 失败 。 为 此 我 们 先 调用 
unlink 删 除 这 个 路 径 名 ， 以 防 它 已 经 存在 。 如 果 它 不 存在 ，unlink 
将 返回 一 个 我 们 要 将 其 忽略 的 错误 。 


bind 然 后 getsockname 


12-18 我 们 使 用 strncpy 复 制 命令 行 参数 ， 以 免 路 径 名 过 长 导 
致 其 汶 出 结构 。 既 然 我 们 已 把 该 结构 初始 化 为 0， 并 且 从 sun_path 数 
组 的 大 小 中 减 去 1， 可 以 肯定 该 路 径 名 将 以 空 字符 结尾 。 之 后 调用 
bind， 并 使 用 SUN_LEN 安 计算 bind 的 长 度 参 数 。 接 着 调用 
getsockname 取 得 刚 绑 定 的 路 径 名 并 显示 结 


如 有 果 在 Solaris 系 统 上 运行 本 程序 ， 我 们 得 到 如 下 结果 : 


首先 输出 umask 的 值 
shell 以 八进制 格式 输出 


solaris % unixbind /tmp/moose 
bound name = /tmp/moose, returned len 13 
solaris % unixbind /tmp/moose 青 运 行 一 次 


bound name = /tmp/moose, returned len 13 

solaris % ls -1 /tmp/moose 

Srwxr -Xr -x 1 andy staff 0 Aug 10 13:13 
/tmp/moose 

solaris % ls -1F /tmp/moose 

Srwxr -Xr -x 1 andy staff 0 Aug 10 13:13 
/tmp/moose- 


我 们 首先 输出 umask 的 值 ， 因 为 POSIX 规 定 结果 路 径 名 的 文件 访 
问 权 限 应 根据 该 值 修正 。 我 们 的 值 为 22 的 文件 模式 掩 码 关闭 组 用 户 写 
位 和 其 他 用 户 写 位 。 接 着 运行 程序 ， 看 到 getsockname 返 回 的 长 度 
为 13: sun_family 占 2 个 字 市 ， 路 径 名 占 11 个 字 市 (扣除 结尾 的 空 字 
^P) 。 这 是 一 个 “ 值 一 结果 ”参数 的 例子 ， 函 数 返 回 时 的 结果 不 同 于 调 
用 画 数 时 的 值 。 我 们 可 以 使 用 printf 的 %s 格 式 输出 该 路 径 名 ， 因 为 
sun_path 成 员 中 的 该 路 径 名 是 以 空 字 符 结 尾 的 。 我 们 然后 再 次 运行 
程序 ， 以 验证 unlink 调 用 删除 了 该 路 径 名 。 


我 们 运行 ]s -1 命令 查看 文件 权限 和 类 型 。 在 Solaris (以 及 大 多 
数 Unix 变 体 ) 上 ， 该 路 径 名 的 文件 类 型 为 显示 为 的 套 接 字 。 我 们 还 
注意 到 权限 位 已 正确 地 根据 umask 值 修正 。 最 后 指定 -F 选 项 再 次 运行 
ls， 它 会 让 Solaris 在 该 路 径 名 之 后 添加 一 个 等 号 。 


历史 上 umask 值 未 被 应 用 于 Unix 域 套 接 字 文件 ， 不 过 多 数 Unix 厂 
商 已 渐渐 地 修复 了 这 一 点 ， 使 得 umask 如 期 地 工作 。 文 件 权 限 位 (不 
论 umask 为 何 值 ) 或 全 都 设置 或 全 不 设置 的 系统 仍然 在 在。 此外， 有 
些 系 统 把 Unix 域 套 接 字 文 件 视 为 FIFO， 从 而 显示 为 p。 本 例 展示 的 是 
最 常见 的 行为 。 


15.3 socketpair WX 


socketpair 函 数 创建 两 个 随后 连接 起 来 的 套 接 字 。 本 函数 仅 适 
用 于 Unix 域 套 接 字 。 


#include <sys/socket.h> 


int socketpair(int family, int type, int protocol, int sockfd[2]); 


返回 : 若 成 功 则 
为 非 9， 若 出 错 则 为 -1 


family 参 数 必须 为 AF_LOCAL，protocol 参 数 必须 为 0° type 3 BI, 
可 以 是 SOCK_STREAM， 也 可 以 是 SOCK_DGRAM。 新 创建 的 两 个 套 接 
=F Fe wt EA sockfd[0]#lsockfd[1 Ji [Fl ° 
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本 函数 类 似 Unix 的 pipe 函 数 ， 会 返回 两 个 彼此 连接 的 描述 符 。 事 
实 上 ， 源 自 Berkeley 的 实现 通过 执行 与 sokcetpair 一 样 的 内 部 操作 
[TCPv338253-—-254J1] 给 出 pipe 接 口 。 


这 样 创建 的 两 个 套 接 字 不 曾 合 名， 也 就 是 说 其 中 没有 涉及 隐 式 的 
bind 调 用 。 


指定 type 参 数 为 SOCK_STRAEM 调 用 socketpair 得 到 的 结果 称 为 
流 管道 (stream pipe) 。 它 与 调用 pipe 创 建 的 普通 Unix 管 道 类 似 ， 差 
别 在 于 流 管道 是 全 双 工 的 ， 即 两 个 描述 符 都 是 既 可 读 又 可 写 。 图 15-7 
展示 了 调用 socketpair 创 建 的 流 管道 。 


POSIX 不 要 求全 双 工 管道 。SVR4 上 pipe 返 回 两 个 全 双 工 的 描述 
, ms 自 Berkeley 的 内 核 传统 地 返回 两 个 半 双 工 的 描述 符 〈TCPv3 的 
图 17-31) ° 


15.4 BRFK 


当 用 于 Unix 域 套 接 字 时 ， 套 接 字 函数 中 存在 一 些 差 异 和 限制 。 我 
们 尽量 列 出 POSIX 的 要 求 ， 并 指出 并 非 所 有 实现 目前 都 已 达到 这 个 级 


别 。 


(1) 由 bind 创 建 的 路 径 名 默认 访问 权限 应 为 0777 ( 属 主 用 户 、 组 
用 户 和 其 他 用 户 都 可 读 、 可 写 并 可 执行 ) ， 并 按照 当前 umask 值 进行 
修正 。 


(2) 与 Unix 域 套 接 字 天 联 的 路 径 名 应 该 是 一 个 绝对 路 径 名 ， 而 不 是 
一 个 相对 路 径 名 。 避 免 使 用 后 者 的 原因 征 它 的 解析 依赖 于 调用 者 的 当 
前 工作 目 示 。 也 束 是 说 ， 要 是 服务 器 捆绑 一 个 相对 路 径 名 ， 客 户 融 得 
在 与 服务 器 相同 的 目录 中 (或 者 必须 知道 这 个 目录 ) 才能 成 功 调用 


connect 或 sendto。 


POSIX 声 称 给 Unix 域 套 接 字 捆 绑 相 对 路 径 名 将 导致 不 可 预计 的 结 


(3) 在 connect 调 用 中 指定 的 路 径 名 必须 是 一 个 当前 绑 定 在 某 个 
打开 的 Unix 域 套 接 字 上 的 路 径 名 ， 而 且 它 们 的 套 接 字 类 型 CY E 
数据 报 ) 也 必须 一 致 。 出 错 条 件 包 括 : (a) 该 路 径 名 已 存在 却 不 是 一 
VERS, (b) 该 路 径 名 已 存在 且 是 一 个 套 接 字 ， 不 过 没有 与 之 关联 
的 打开 的 描述 符 ; (c0 该 路 径 名 已 存在 且 是 一 个 打开 的 套 接 字 ， 不 过 
类 型 不 符 〈 也 就 是 说 Unix 域 字 世 流 套 接 字 不 能 连接 到 与 Unix 域 数据 报 
套 接 字 关联 的 路 径 名 ， 反 之 亦 然 ) 。 


(4) 调用 connect 连 接 一 个 Unix 域 套 接 字 涉 及 的 权限 测试 等 同 于 
调用 open 以 只 写 方式 访问 相应 的 路 径 名 。 


(5) Unix 域 字 世 流 套 接 字 类 似 TCP 套 接 字 : 它们 都 为 进程 提供 一 个 
无 记录 边界 的 字 贡 流 接 口 。 
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(6) 如 采 对 于 某 个 Unix 域 字 节 流 套 接 字 的 connect 调 用 发 现 这 个 
监听 套 接 字 的 队列 已 满 (4.5 节 ) ， 调 用 就 立即 返回 一 个 
ECONNREFUSED 错 误 。 这 一 点 不 同 于 TCP: 如 果 TCP 监 听 套 接 字 的 队 
列 已 满 ，TCP 监 听 端 就 忽略 新 到 达 的 SYN， 而 TCP 连 接 发 起 端 将 数 次 
发 送 SYN 进 行 重 试 。 


(7) Unix 域 数据 报 套 接 字 类 似 于 UDP 套 接 字 : 它们 都 提供 一 个 保留 
记录 边界 的 不 可 靠 的 数据 报 服务 。 


(8) 在 一 个 未 绑 定 的 Unix 域 套 接 字 上 发 送 数 据 报 不 会 自动 给 这 个 套 
接 字 捆绑 一 个 路 径 名 ， 这 一 点 不 同 于 UDP 套 接 字 : 在 一 个 未 绑 定 的 
UDP 套 接 字 上 发 送 UDP 数 据 报导 致 给 这 个 套 接 字 捆 绑 一 个 临时 端口 。 
这 一 点 意味 着 除非 数据 报 发 送 端 已 经 捆绑 一 个 路 径 名 到 它 的 套 接 字 ， 
否则 数据 报 接收 端 无 法 发 回应 答 数据 报 。 类 似 地 ， 对 于 某 个 Unix 域 数 
据 报 套 接 字 的 connect 调 用 不 会 给 本 套 接 字 捆 绑 一 个 路 径 名 ， 这 一 点 
不 同 于 TCP 和 UDP。 


15.5 ”Unix 域 字 节 流 客 户 / 服 务 器 程序 


我 们 现在 把 第 5 章 中 的 TCP 回 射 客户 /服务 如 程序 重新 编写 成 使 用 
Unix 域 套 接 字 。 图 15-3 改 写 自 图 5-12 中 使 用 TCP 的 服务 絮 程 序 。 


unixdonisir/tinixsirservül.c 


4 


ewer arn ke wh 


include "unp.h" 


nain!int arge, char **argy, 


int listenfd, conn^d; 

pid t chilspid; 

sccklen t cli.cn; 

struac- sockacdr un cliadér, servaddr: 


vid sig ehdiint); 
listenfd - ScCCket;AF LOCAL, SOCK STREAN, 0): 


ualinx(UNIXSTR DAN7H); 

bzero(&servaédr, sizeof!se-vazdr!l]), 
servad. sun family s AF LOCA: 
strcpy!|servacdr.sun path, UNIXSIR PAUH); 


Bindilictenta, (SA +) sservaddr, sizeof (servadar)); 
Listenilistenf2, LISTENO} ; 
SigmliSIGCHTD, a g hldi; 


fort ss E 
cliien = eizeoficlisdar) ; 
i= [ (conmEd = accept(listenfd, (SA +! &cliaddr, &clilen!) = 2) | 
i= (mrrnu == EINTR? 
continue; /* back to for() */ 
clce 
err sys'"accept errcr"); 


) 


i= ( (childpid = Fork(]) == uU) { /* child precess */ 


Close |listentid) ; /* close listening socket */ 
str_echo(connfd) ; /* process request */ 
exit (0) ; 

} 

Close (conn£d! ; /* parent closes connected socket */ 


unii woninéenlisieser ir 
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图 15-3 EH Unix F AAA RR AS SR hE 


两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 


10 ”socket 的 第 一 个 参数 是 AF_LOCAL， 用 以 创建 一 个 Unix 域 


字 节 流 套 搂 字 。 


11-15 unp.h 中 定义 的 UNIXSTR_PATH 常 值 
为 /tmp/unix.str。 我 们 首先 unlink 该 路 径 名 ， 以 防 早先 某 次 运行 
本 程序 导致 该 路 径 名 已 经 存在 ， 然 后 在 调用 bind 前 初始 化 套 接 字 地 址 
结构 。unlink 出 错 没 有 关系 。 


注意 ， 这 里 的 bind 调 用 不 同 于 图 15-2 中 的 调用 。 这 里 我 们 指定 套 
接 字 地 址 结构 的 大 小 (bind 的 第 三 个 参数 ) 是 sockaddr_un 结 构 总 
的 大 小 ， 而 不 是 只 把 路 径 名 占用 的 字 节 数 计算 在 内 。 这 两 个 长 度 都 是 
有 效 的 ， 因 为 路 径 名 必须 以 空 字符 结尾 。 

这 个 main 函 数 的 其 余部 分 和 图 5-12 中 的 相同 ， 而 且 使 用 同样 的 
str_echo 函 数 (图 5-3) ° 


图 15-4 是 使 用 Unix 域 子 市 流 协 议 的 回 射 客户 程序 ， 改 写 目 图 5-4。 


unidxclomaiaixstecliól.c 


1 #include "uup.h" 


2 int 

3 main(int args, cmar **argv) 

4 | 

5 int sackfd; 

6 struct sockaddr un servaddr; 


eockid = Socket (AF LOCAL, SUCK STREAM, 0)r 


0 bzero(5ssrvaddr, sizeotiservacdr)) i 

9 servedcr.sun_fanily = AP LOCAL; 

LO strepy (servasdr sun parth, UN-XSTR PATH); 

11 Connect|[eocktd, (SA t) &servacdr, sizeot (servaddr)) ; 
12 str_clilstdin, socxfd); /* do ib all */ 

13 exi-i0); 

14 ] 


andulriaia'urixsfri fiib di 


图 15-4 EHUn TF T PCENAS ISDN TP RR 


6 含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockaddr_un 
结构 。 

7 socket 的 第 一 个 参数 是 AF_ LOCAL ° 

8-10 ”填写 套 接 字 地 址 结构 的 代码 与 服务 器 程序 的 相同 : 把 结构 
初始 化 成 0， 把 family 成 员 设置 为 AF_LOCAL， 再 把 路 径 名 复制 到 
sun_path 成 员 中 。 


12 str_cli 函 数 和 先前 使 用 的 一 样 (图 6-13 是 我 们 开发 的 最 近 
一 个 版 本 ) 。 


15.6 ”Unix 域 数据 报 客户 /服务 器 程序 


我 们 现在 把 出 自 8.3 节 和 8.5 节 的 UDP 回 射 客户 /服务 器 程序 重新 编 
写成 使 用 Unix 域 数据 报 套 接 字 。 图 15-5 改 写 自 图 8-3 中 的 服务 器 程序 。 


unizdomouvonixdeservOl.c 


1 #incluwie "unp.h" 


2 int 
3 main(int args, caar **arqv) 


4 

5 int sockfd; 

€ struct sockaddr un servaddr, cliaddr; 
ëj 


sockfd = Sccket;AP LOCAL, SICK_DGRAM, 01; 


& unlink(UNTXD3 FATH); 


E] bzero(&servadJdr, sizeotiservaddr)); 

10 servader.gun fonily = AF LOCAL; 

11 strcpy(ssrzvad3dr.sun path. UNIXNDG PATH!; 

12 Rindisnck^óc, (SA 4) servait, sizeof (servectir)) > 
l3 dg echo(soczkfd, (SA *) acliadér, sizeof (cliasdr)); 
14 } 


vaizdomounvonixdgserv0l 


图 15-5 ”使 用 Unix 域 数据 报 协议 的 回 射 服务 器 程序 
6 ”两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 
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7 ” socket 的 第 一 个 参数 是 AF_LOCAL， 用 于 创建 一 个 Unix 域 数 
据 报 套 接 字 。 

8-12 unp.h 中 定义 的 UNIXDG_PATH 常 值 为 /tmp/unix.dg。 
我 们 首先 un1ink 该 路 径 名 ， 以 防 早先 某 次 运行 本 程序 导致 该 路 径 名 
已 经 存在 ， 然 后 在 调用 bpind 之 前 初始 化 套 接 字 地 址 结构 。un1Link 出 
HINA KR ° 

13 fe ARM dg_echom2X (图 8-4) ° 

图 15-6 是 使 用 Unix 域 数据 报 协议 的 回 射 客户 程序 ， 改 写 自 图 8-7。 


urixdoniainunixdecliül.c 


1 d$include "ur.p. h" 
2 ant 


J nain!inz argc, char **argy, 


5 int sockfd; 
6 struct sockacdr un cliad=r, servaddr: 
ecekfd = socket (AP LOCAL, SOCK LGHAM, 0); 
8 bzero(&clizdcr, s-zect (cliaddr!) : /* bind an address for us */ 
3 cliaddr.sun_fanily = AF_LOCAL; 
10 stropypicliedóür.s gr pet h, tmepnem(WILI]!; 
ii Bindisockfd, (SA v) scliaddr, sízeot;cliíaóddr)!; 
12 bzero(&servacdr, sizeot:|servaddr;); /* Fill in server's address */ 
13 servadd-.sun femi-y = AP LOCAL; 
14 stropy (servacdr.sun _ path, UNTXD* PATH!; 
15 dg 7li:stdin, sockfd, (SA t) &ssrvaddr, sizeo*(servaddr)!; 
16 exltí2):; 
1? ` 


urixdoniairuixdicliül.c 


图 15-6 ”使 用 Unix 域 数据 报 协议 的 回 射 客户 程序 


6 含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockaddr_un 
结构 。 我 们 还 分 配 这 样 的 一 个 结构 以 存放 客户 的 地 址 。 


7 ” socket 的 第 一 个 参数 是 AF_LOCAL ° 


8~11 与 UDP 客 户 不 同 的 是 ， 当 使 用 Unix 域 数据 报 协议 时 ， 我 们 
必须 显 式 bind 一 个 路 径 名 到 我 们 的 套 接 字 ， 这 样 服务 器 才 会 有 能 回 射 
应 答 的 路 径 名 。 我 们 调用 tmpnam 赋 值 一 个 唯一 的 路 径 名 ， 然 后 把 它 
bind 到 该 套 接 字 。 回 顾 15.4 节 ， 我 们 知道 由 一 个 未 绑 定 的 Unix 域 数据 
报 套 接 字 发 送 数据 报 不 会 隐 式 地 给 这 个 套 接 字 捆绑 一 个 路 径 名 。 因 此 
要 是 我 们 省 掉 这 一 步 ， 那 么 服务 器 在 dg_echo 画 数 中 的 recvfrom 调 
用 将 返回 一 个 空 路 径 名 ， 这 个 空 路 径 名 将 导致 服务 器 在 调用 sendto 
时 发 生 错 误 。 


12-14 用 来 往 套 接 字 地 址 结构 中 填写 服务 器 那 众 所 周知 路 径 名 
的 代码 与 先前 的 服务 器 程序 一 样 。 


15 dg_cli 了 画 数 与 图 8-8 所 示 的 一 样 。 


Ta] 


419 


15.7 描述 符 传递 


当 考 虑 从 一 个 进程 到 另 一 个 进程 传递 打开 的 描述 符 时 ， 我 们 通 种 


Beal: 


。 fork 调 用 返回 之 后 ， 于 进程 共 剖 父 进程 的 所 有 打开 的 描述 符 ; 
。 exec 调 用 执行 之 后 ， 所 有 摘 述 符 通 前 保持 打开 状态 不 变 。 


第 一 个 例 于 中 ， 进 程 移 打开 一 个 描述 符 ， 再 调用 fork， 然 后 父 进 
程 关 闭 这 个 描述 符 ， 子 进程 则 处 理 这 个 描述 符 。 这 样 一 个 打开 的 描述 
符 束 从 父 进程 传递 到 子 进程 。 然 而 我 们 也 可 能 想 让 子 进 程 打 开 一 个 摘 
述 符 并 把 它 传递 给 父 进程 。 


当前 的 Unix 系 统 提 供 了 用 于 从 一 个 进程 回 任 一 其 他 进程 传递 任 一 
打开 的 摘 述 符 的 方法 。 也 吏 是 说 ， 这 两 个 进程 之 间 无 需 存 在 亲缘 天 
系 ， 辟 如 父子 进程 关系。 这 种 技术 要 求 首 先 在 这 两 个 进程 之 间 创 建 一 
个 Unix 域 套 接 字 ， 然 后 使 用 sendmsg 跨 这 个 套 接 字 发 送 一 个 特殊 消 
思 。 这 个 请 妃 由 内 核 来 专门 处 理 ， 会 把 打开 的 描述 符 从 发 送 进程 传递 
到 接收 进程 。 


TCPv3 第 18 章 详细 讲解 了 4.4BSD 内 核 在 跨 Unix 域 套 接 字 传 递 打开 
的 描述 符 过 程 中 执行 的 神奇 操作 。 


SVR4 内 核 使 用 另 一 种 不 同 的 技术 来 传递 打开 的 描述 符 : APUE 的 
节 @ 中 讲解 的 L_SENDFD 和 I_RECVFD 这 两 个 ioct1 命 令 。 然 而 进程 仍 
然 可 以 使 用 Unix 域 套 接 字 访 问 这 个 内 核 特 性 。 在 本 书 中 我 们 介绍 使 用 
Unix 域 套 接 字 的 描述 符 传 递 方法 ， 因 为 这 是 最 便于 移植 的 编程 技术 : 
这 种 技术 不 论 是 在 源 自 Berkeley 的 内 核 上 、 还 是 在 SVR4 内 核 上 都 能 工 
作 ， 而 使 用 I_SENDFD 和 I_RECVFD 这 两 个 ioct1 命 令 的 技术 只 能 用 
在 SVR4 内 核 上 。 


4.4BSD 的 技术 允许 单个 sendmsg 调 用 传递 多 个 描述 符 ， 而 SVR4 
E HEN TIEN 。 我 们 所 有 的 例子 都 是 每 次 传递 一 个 
ET ° 


在 两 个 进程 之 间 传 递 描述 符 涉 及 的 步骤 如 下 。 


(1) 8&8 — TFT AY TETRA Unix Be F ° 


如 果 目 标 是 fork 一 个 子 进程 ， 让 子 进程 打开 待 传递 的 描述 符 ， 再 
把 它 传递 回 父 进程 ， 那 么 父 进程 可 以 预先 调用 socketpair 创 建 一 个 
可 用 于 在 父子 进程 之 间 交 换 描 述 符 的 流 管道 。 
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如 果 进 程 之 间 没 有 亲缘 关系 ， 那 么 服务 器 进程 作 须 创建 一 个 Unix 
域 字 节 流 套 接 字 ，bind 一 个 路 径 名 到 该 套 接 字 ， 以 允许 客户 进程 
connect 到 该 辟 接 字 。 然 后 客户 可 以 回 服务 器 发 送 一 个 打开 某 个 描述 
符 的 请 求 ， 服 务 器 再 把 该 描述 符 通 过 Unix 域 套 接 字 传递 回 客 户 。 客 户 
和 服务 器 之 间 也 可 以 使 用 Unix 域 数据 报 套 接 字 ， 不 过 这 么 做 没什么 好 
处 ， 而 且 数 据 报 还 存在 被 丢弃 的 可 能 性 。 在 本 节 的 例子 中 ， 客 户 和 服 
务 器 之 则 使 用 字 节 流 套 接 字 。 


(2) 发 送 进程 通过 调用 返回 描述 符 的 任 一 Unix 函 数 打开 一 个 描述 
符 ， 这 些 函 数 的 例子 有 open、pipe、mkfifo、socket 和 
accept。 可 以 在 进程 之 间 传 递 的 描述 符 不 限 类 型 ， 这 就 是 我 们 称 这 
种 技术 为 “描述 符 传 递 ” 而 不 是 “文件 摘 述 从 传递 ”的 原因 。 


(3) 发 送 进 程 创 建 一 个 msghdr 结 构 (14.555) ， 其 中 含有 竺 传递 
的 描述 符 。POSIX 规 定 描述 符 作 为 辅助 数据 (msghdr 结 构 的 
msg_control 成 员 ， 见 14.6 节 ) 发 送 ， 不 过 较 老 的 实现 使 用 
msg_accrights 成 员 。 发 送 进程 调用 sendmsg 跨 来 目 步 又 1 的 Unix 域 
套 接 字 发 送 该 描述 行 。 至 此 我 们 说 这 个 描述 符 “ 在 飞行 中 Cin 
flight) ”。 即使 发 送 进程 在 调用 sendmsg 之 后 但 在 接收 进程 调用 
recvmsg 〈 见 下 一 步骤 ) 之 前 天 闭 了 该 描述 符 ， 对 于 接收 进程 它 仍然 
保持 打开 状态 。 发 送 一 个 描述 符 会 使 该 描述 符 的 引用 计数 加 1。 


(4) 接收 进程 调用 recvmsg 在 来 目 步骤 1 的 Unix 域 套 接 字 上 接收 这 
个 描述 符 。 这 个 措 述 符 在 接收 进程 中 的 描述 符号 不 同 于 它 在 发 送 进程 
中 的 摘 述 符号 是 正 党 的。 传递 一 个 摘 述 符 并 不 是 传递 一 个 描述 符号 ， 
而 是 涉及 在 接收 进程 中 创建 一 个 新 的 描述 符 ， 而 这 个 痢 描 述 待 和 发 送 
进程 中 飞行 前 的 那个 描述 符 指 同 内 核 中 相同 的 文件 表 项 。 


7 PURUS AS i ZB EET, DETREI Mat 
程 预 先知 道 何 时 期 得 接收 。 如 果 接 收 进程 调用 recvmsg 时 没有 分 配 用 
于 接收 描述 符 的 空间 ， 而 且 之 前 已 有 一 个 描述 符 被 传递 并 正 等 着 被 读 
取 ， 这 个 早先 传递 的 描述 符 就 会 被 关闭 (TCPvV2 第 518 页 ) 。 男 外 ， 在 
期 行 接 收 撕 述 符 的 recvmsg 调 用 中 应 该 避免 使 用 MSG_PEEK 标 志 ， 否 
则 后 采 不 可 预料 。 


描述 符 传 递 的 例子 

我 们 现在 给 出 一 个 描述 符 传递 的 例子 。 这 是 一 个 名 为 mycat 的 程 
序 ， 它 通过 命令 行 参数 取得 一 个 路 径 名 ， 打 开 这 个 文件 ， 再 把 文件 的 
内 容 复 制 到 标准 输出 。 该 程序 调用 我 们 名 为 my_open 的 函数 ， 而 不 是 
调用 普通 的 Unix open 函 数 。my_open 创 建 一 个 流 管道 ， 并 调用 fork 
和 exec 启 动 执行 另 一 个 程序 ， 期 待 输出 的 文件 由 这 个 程序 打开 。 该 程 
序 随后 必须 把 打开 的 描述 符 通过 流 管道 传递 回 父 进程 。 
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图 15-7 展 示 上 述 步骤 (1) : 通过 调用 socketpair 创 建 一 个 流 管 


道 后 的 mycat 进 程 。 我 们 以 [9] 和 [1] 标 示 socketpair 返 回 的 两 个 
描述 符 。 


mycat 


[0] [1] 


图 15-7 使 用 socketpair 创 建 流 管道 后 的 mycat 进 程 


mycat 进 程 接着 调用 fork， 子 进程 再 调用 exec 执 行 openfile 
程序 。 父 进程 关闭 [1] 描 述 符 ， 子 进程 关闭 [90] 描述 符 。 ( 流 管道 的 
两 端 之 间 没 有 差异 ， 我 们 也 可 以 让 子 进程 关闭 [1] ， 让 父 进程 关闭 
[9]。) 图 15-8 展 示 了 如 此 人 处理 后 的 结果 。 


exit “退出 状态 ) 


fork, 


fam eee N 
exec (MOITE) 


一 指 述 符 


图 15-8 ”启动 执行 openfile 程 序 后 的 mycat 进 程 


父 进 程 必须 给 openfile 程 序 传递 三 条 信息 : (1) 符 打开 文件 的 路 
径 名 ，(2) 打 开 方 式 (只 读 、 读 写 或 只 写 ) ，(3) 流 管道 本 进程 端 (图 中 
标 为 [1]) 对 应 的 摘 述 符号 。 我 们 选择 将 这 三 条 信息 作为 命令 行 参数 
在 调用 exec 时 进行 传递 。 当 然 我 们 也 可 以 通过 流 管 道 将 这 三 条 信息 作 
为 数据 发 送 。openfile 程 序 在 通过 流 管道 发 送 回 打 开 的 描述 符 后 便 
终止 。 该 程序 的 退出 状态 告知 父 进程 文件 能 否 打 开 ， 若 不 能 则 同时 告 
知 发 生 了 什么 类 型 的 错误 。 

通过 执行 男 一 个 程序 来 打开 文件 的 优势 在 于 ， 男 一 个 程序 可 以 是 
一 个 setuid 人 到 jroot 的 程序 ， 能 够 打开 我 们 通常 没有 打开 权限 的 文件 。 该 
程序 能 够 把 通常 的 Unix 权 限 概念 (用户 、 用 户 组 和 其 他 用 户 ) 扩展 到 
它 想 要 的 任何 形式 的 访问 检查 。 

422 


我 们 以 mycat 程 序 开 始 讨论 ， 如 图 15-9 所 示 。 


umixdoniairmycal.c 


1 #include “unp.h" 

2 int my ocen/const char *, int); 

3 int 

4 maintinl argc, cir **argv) 

e 

J 

€ int £d, ni 

7 Char puff (BUFFSLZE) ; 

& iL {azo bs 2) 

9 err quiL('usage: mycal «patlmaue»"): 

10 it ( (fd - my_cpen(argv[1], © RDONLY)!) « 0) 
1i srr zvc;"cannot oper ts", arqví1];; 

12 while ( in = Readífd, bu?f, BUFFSIZZ)! ~ 0) 
13 Write (STDOUT FILENO, cuff, n); 

14 exi-i0); 

15 } 


图 15-9 mycat 程 序 ， 把 一 个 文件 复制 到 标 ? 


uanixndoniainmycal.c 


EHN EH 


如 果 把 其 中 的 my_open 调 用 换 成 open 调 用 ， 这 个 简单 的 程序 就 


只 是 把 一 个 文件 复制 到 标准 输出 。 


IÉBm 
ES 


图 15-10 所 示 的 my_open 画 数 有 


JUN 


编写 成 有 着 和 通常 的 Unix open 


玫 数 一 致 的 调用 接口 。 它 取 两 个 参数 ， 即 一 个 路 径 名 和 一 个 打开 方式 


I 
[T 2 


pi 


J 只 读 的 0_RDONLY) ， 打 开 该 文件 ， 然 后 返回 一 个 描述 


unixdormairmyopen.c 


1 fincluze "unp.h* 

z int 

3 my operí(cons- char *petbneame, int mode) 

5 int fd, cockzd[2., status; 

é pid t chilðpid, 

7 char c, argsockt32[10], argmode (10) ; 

£ Socketpair(AF LOCAL, SOCK STREAM, 0, sockzd!; 

9 i= ( (childpid = Pork!;) == 0) { /* child process */ 

iQ c1588;sockfd[Q0]); 

11 snnrinrf (a vgsackts, sizeof! targsockfa , "kd", sockfd[i}); 
12 anor int EPUM; sizeof largime), "kd", mexle); 

13 execl: './openfile", *opentile', ercacckéd, pathname, sromode, 
14 (char *) NULL); 

15 err sys! "execl srror*!; 

1€ } 

17 /* parent process - wait for the child ts terminate */ 

18 Cloee(cockEd([1}) : /* close the end we don't use */ 
19 Waicpig[-hildpid, status, C); 

20 i= (WIFEXITED istatus) == f) 

21 err quití("child did nct terminste"} 

22 a= ( (ctatuo = WEXITETATUE[ctatuc)) == 0) 

d xead fdísockfd[U], 5c, 1, &zd!; 

24 else | 

25 errnc = status; /* set errno value from child s status */ 
26 Ed - -1; 

EYI } 

28 Chase to ERUN ) 

29 return (fc 

30 ] 


uncadomainmyopen.c 


图 15-10 my openENZk: 打开 一 个 文件 并 返回 其 描述 符 


创建 流 管道 


8 调用 socketpair 创 建 一 个 流 管 道 ， 返 回 两 个 摘 述 符 : 
sockfd[9] 和 sockfd[1]。 这 是 图 15-7 所 示 的 状态 。 


fork 并 exec 


9-16 调用 fork， 子 进程 然后 关闭 流 管道 的 一 端 。 流 管道 另 一 
端的 描述 符号 格式 化 输出 到 argsockfd 字 符 数 组 ， 打 开 方 式 则 格式 化 
输出 到 argmode 字 符 数 组 。 这 里 调用 Snprintf 进 行 格式 化 输出 是 因 
为 exec 的 参数 必须 是 字符 串 。 子 进程 随后 调用 execl 执 行 openfile 
程序 。 该 画 数 不 会 返回 ， 除 非 它 发 生 错 误 。 一 旦 成 功 ，openfile 程 
序 的 main 函 数 就 开始 执行 。 


父 进程 等 待 子 进程 


17-22 ACER AVE IE BE] wait pid tite 
终止 。 子 进程 的 终止 状态 在 status 变 量 中 返回 ， 我 们 首先 检查 该 程 
序 是 否 正常 终止 (也 就 是 说 并 非 被 某 个 信号 终止 ， 若 正常 终止 则 接 
着 调用 WEXITSTATUS 安 把 终止 状态 转换 成 退出 状态 ， 退 出 状态 的 取 
值 在 0~255 之 间 。 我 们 马上 会 看 到 ， 如 果 openfile 程 序 在 打开 所 请 
oo 彰 误 ， 它 将 以 相应 的 errno 值 作为 退出 状态 终止 自 


接收 描述 符 


23 ”接着 给 出 的 read_fd 范 数 通过 流 管 道 接 收 描述 符 。 除 了 描述 
符 外 ， 我 们 还 读 取 1 个 字 市 的 数据 ， 但 不 对 数据 进行 任何 处 理 。 
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通过 流 管 道 发 送 和 接收 描述 符 时 ， 我 们 总 是 发 送 至 少 1 个 字 市 的 数 
据 ， 即 便 搂 收 进程 不 对 数据 做 任何 处 理 。 要 是 不 这 么 做 ， 接 收 进程 将 
难以 辨别 read_fd 的 返回 值 为 0 意味 痢 “ 没 有 数据 〈 但 是 可 能 伴 有 一 个 
描述 符 ) ”还 是 “文件 已 结束 ”。 


图 15-11 给 出 了 read_fd 函 数 ， 它 调用 recvmsg 在 一 个 Unix 域 套 
接 字 上 接收 数据 和 描述 符 。 该 函数 的 前 3 个 参数 和 read 函 数 一 样 ， 第 
四 个 参数 是 指向 某 个 整数 的 指针 ， 用 以 返回 收取 的 描述 符 。 


9-26 ”本 函数 必须 处 理 两 个 版 本 的 recvmsg， 一 个 使 用 
msg_control 成 员 ， 男 一 个 使 用 msg_accrights 成 员 。 如 果 所 支持 
的 是 msg_control 版 本 ， 我 们 的 config .h 头 文件 (图 D-2) 就 会 定 
义 常量 HAVE_MSGHDR_MSG_CONTROL ° 


确保 msg_control 正 确 对 齐 


10-13 msg_control 绥 冲 区 必须 为 cmsghdr 结 构 适当 地 对 
齐 。 单 纯 分 配 一 个 字符 数组 是 不 够 的 。 这 里 我 们 声明 了 由 一 个 
cmsghdr 结 构 和 一 个 字符 数组 构成 的 一 个 联合 ， 这 个 联合 确保 字符 数 
组 正确 对 齐 。 确 保 对 齐 的 男 一 个 方法 是 调用 malloc， 不 过 需要 在 函 
数 返 回 前 释放 所 分 配 的 内 存 空间 。 


27-45 调用 recvmsg。 如 果 返 回 了 辅助 数据 ， 那 么 其 格式 应 如 
14-13 所 示 “。 我 们 要 验证 辅助 数据 的 长 度 、 级 别 和 类 型 ， 然 后 从 中 取 
出 新 建 的 描述 符 ， 并 通过 调用 者 给 出 的 recvfd 指 针 返 回 该 描述 符 。 
CMSG_DATA 返 回 一 个 unsigned _ char 指针 ， 指 向 辅助 数据 对 象 的 
cmsg_data 成 员 。 我 们 把 它 类 型 强制 转换 (casting) 成 一 个 int 指 
针 ， 并 取出 它 指向 的 整数 摘 述 符 。 
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如 果 所 支持 的 是 较 老 的 msg_accrights 成 员 ， 那 么 它 的 长 度 应 


该 是 一 个 整数 的 大 小 ， 从 中 取出 的 新 建 描述 符 同 样 通 过 调用 者 给 出 的 
recvfd 指 针 返 回 。 


1 Hinclude "unp.L" 


2 esize t 
3 read fdiin- fd, vo:2 *ptr, size_t bytes, int *recv:d) 


af 


struct. msghér wag; 
struct iovec iov[.]: 
ssize t on; 


3 Hifdef  HWAUE MSCHOR MSG CONTR^I, 


E] union { 

15 struct cmeghür on: 

11 char ccntrol ‘MSG SPACE (eizsot (int) tl: 
12 à control ur: 

13 struct cmagndr *cnptr; 

14 msg.rs$g control - contre._un.cont ol; 

15 msg.msg con-rollen = sizeotícontro: ur.ccntrol); 
18 Helse 

13 int newfd; 

i8 msg.msg acerights - (caddy t! &newfd; 

13 msg.tsg_accrightsisn = sizeof{int!, 

22 Hendif 

21 meg.rsg name - N.LL: 

22 nmeg.rsg namelen = f; 

23 iav ta] -icv_ hase s ptr; 

24 iov[J].iov len = nbytes; 

25 Mag msg9_iov m ipu; 

25 meg.meg_iovlen = i; 

27 if | {a = recvmeugifd, &sg, 0j) «= 0} 

23 zecurnin) ; 


23 Hifdef HAVE MSGHDR MSG CONTROL 


33 if i icmptr = CN3G FIRSTHDR/amsg)! != NULL && 

31 cmotr-»cemeg ler == (MSG .EN(sizsof(int))) | 

32 if [cmptr-»-msg level != SCL_SOCK=T) 

33 err quit("control level l= SOL SOCET"); 

34 if [cmptr-»-msg type !- SCM_RIGHTS) 

35 err_quit ("control type != SCM RIGHIS"!; 

45 *recvfd = *-((int *) CMS3_ DATA (cmprr)); 

37 + elce 

33 trecvřd = <1; /* des-riptcr was rot passed */ 
33 Helse 

42 if (wag mag accrightsleà) zz sizentlint?) 

41 *reevid = newfd; 

42 else 

43 *recvid = -1; /* descriptcr was not passed */ 
44 Hendit 

45 rscum in) ; 

48 } 


图 15-11 read fdEXE: 接收 数据 和 一 个 描述 符 


Tií/reuul. fü c 


hbvread fic 


图 15-12 给 出 了 openfile 程 序 。 它 取 三 个 必须 传 入 的 命令 行 参 
数 ， 并 调用 通常 的 open 琴 数 。 


unixdomain/apentile.c 


1 $include * ur.p. h" 


2 int 
3 maia!inz argc, char wrargv) 


5 int fd; 
6 LE (argo t= 4j 
7 err quit("cpenfile -sockfdft- <fllenane> -moda-"): 


8 it ( (td = open(arav[2|, atoi (argv | 3]1)! < 0) 
exit! (errao > 0! ? errno ) ; 


10 i£ (write fd(atoi[argv[1]), "". 1, fd} < 0) 
IL exit( (errno > Ọ) ?了 errno : 255 ); 
12 exitiJ); 


umixdomainopemile.c 


图 15-12 openfilekiš: 打开 一 个 文件 并 传递 回 其 描述 符 


命令 行 参 数 
7-12 三 个 命令 行 参 数 中 的 两 个 早先 由 my_open 格 式 化 成 字符 
串 ， 需 使 用 atoi 把 它们 转换 回 整数 。 


打开 文件 


9-10 调用 open 打 开 文 件 。 如 果 出 错 ， 与 open 错 误 对 应 的 
errno 值 束 作 为 进程 退出 状态 返回 。 


传递 回 描述 符 


11-12 ”由 接着 要 讲 到 的 write_fd 函 数 把 描述 符 传 递 回 父 进程 
之 后 ， 本 进程 立即 终止。 本 章 早 移 说 过 ， 发 送 进程 可 以 不 等 落地 就 关 
闭 已 传递 的 描述 符 (调用 exit 时 发 生 ) ， 因 为 内 核 知 道 该 描述 符 在 飞 
行 中 ， 从 而 为 接收 进程 保持 其 打开 状态 。 

退出 状态 必须 在 0 到 255 之 间 。 目 前 最 大 的 errno 值 约 为 150。 男 一 


en A 就 是 作为 sendmsg 调 
用 中 的 普通 数据 传递 回 错误 代码 。 
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图 15-13 给 出 了 作为 本 例子 最 后 一 人 1 画 数 的 write_fd， 它 调用 
sendmsg 跨 一 个 Unix 域 套 接 字 发 送 一 个 描述 行 (以 及 可 选 的 数据 ， 但 
本 函数 没有 采用 它们 ) 。 


hib/write fd.c 


1 #include "uip.h" 


2 ssize t 


3 write fdlirt fd, vcid *ptr, sizs = nbytes, int scendtd) 


ti 


5 


6 


srtruc- msghdr msg; 
strac- Lovee -ov[:]: 


? fifóef HAVE MsGHD& MSG CONTROL 


8 union ( 

9 struct cmschdr cm: 

10 char control [CMSG SPACE (sizeof (int))]; 
11 ! eonzrol un; 

12 stracz emss3hór ‘“crp=r; 

13 msg.msg_control = control un.-zontrol; 

14 mag-mag_controlien = sizenticontral_un.conrrs)); 
15 crptr = CHSG PIRESTHDR | amsg! ; 

16 crptr-»eamsg ler = CM3G LEN (sizeof linti); 
17 cirplr -SO ML = BOL, SOCKET: 

18 crptr->cmsy type = SCM RIGHTS; 

19 *(;in- *) CMEG DATAicmptr)! = ssndfd, 
20 $21se 

21 WE MS acccigbts = (caddr t) & sendfd; 
i2 mag.msg accrigtts.aen - sizeot(int); 

23 #endit 

24 (ug.msg naue = NULL; 

25 msg.mzj nameler. = 0; 

i6 icv[U].iov bass = ptr; 

27 icvl0l .iov_len = noyces; 

28 msg.msg iov = iov, 

29 "sg mag iow Len = *; 

30 returnisensmeg(fd, arsg, Q0!): 

31 


lib^vrit? fac 


图 15-13 write_fd 函 数 : 调用 sendmsg 传 递 一 个 描述 符 


与 read_fd 函 数 一 样 ， 本 函数 也 必须 既 能 处 理 辅助 数据 又 能 处 理 
较 老 的 访问 权限 。 不 论 在 哪 种 情况 下 ， 本 函数 都 先 初始 化 一 个 
msghdr 结 构 ， 再 调用 sendmsg 。 


我 们 将 在 28.7 贡 展示 一 个 在 无 亲缘 关系 进程 之 间 传 递 描 述 符 的 例 
子 ， 再 在 30.9 让 中 展示 一 个 在 有 亲 毕 关系 进程 之 间 传 递 描述 得 的 例 
子 。 它 们 将 使 用 上 述 read_fd 和 write fdEZ 0 


15.8 FAURE 


14-13 f AY n8 Unix eS EAB 28078 Pe BY A — PP 
据 是 用 户 赁 证 (user credential) 。 作 为 辅助 数据 的 凭证 其 具体 封装 方 
式 和 发 送 方式 往往 特定 于 操作 系统 。 本 节 只 讨论 FreeBSD 的 凭证 传 
递 ， 不 过 其 他 Unix 变 体 也 是 类 似 的 (难点 通常 在 确定 使 用 哪个 结构 
E) 。 和 凭证 传递 仍然 是 一 个 尚未 普及 且 无 统一 规范 的 特性 ， 然 而 因为 
它 是 对 Unix 域 协议 的 一 个 尽管 简单 却 也 重要 的 补充 ， 所 以 我 们 还 是 要 
介绍 一 下 它 。 当 客户 和 服务 右 进 行 通信 时 ， 服 务 右 通常 需 以 一 定 手 段 
获悉 客户 的 身份 ， 以 便 验 证 客户 是 否 有 权限 请 求 相应 服务 。 


FreeBSD 使 用 在 头 文 件 <sys/socket.h> 中 定义 的 cmsgcred 结 
构 传递 凭证 。 


struct cmsgcred { 
pid_t cmcred_pid; /* PID of sending process 


urs 

uid t cmcred uid; /* real UID of sending 
process */ 

uid t cmcred euid; /* effective UID of 
sending process */ 

gid t cmcred gid; /* read GID of sending 
process */ 

short cmcred ngroups; /* number of groups */ 

gid t cmcred groups[CMGROUP MAX]; /* groups */ 


CMGROUP_MAX 常 值 通常 为 16。cmcred_ngroups 总 是 至 少 为 1， 
而 且 cmcred_groups 数 组 的 第 一 个 元 素 是 有 效 组 ID © 


凭证 信息 总 是 可 以 通过 Unix 域 套 接 字 在 两 个 进程 间 传递 ， 然 而 发 
送 进程 发 送 它们 时 往往 需 做 特殊 的 封装 处 理 ， 接 收 进程 接收 它们 时 也 
往往 需 做 特殊 的 接受 处 理 〈 例 如 打开 套 接 字 选 项 ) 。 在 FreeBSD 系 统 
中 ， 接 收 进程 只 需 在 调用 recvmsg 同 时 提供 一 个 足以 存放 凭证 的 辅助 
数据 空间 即 可 ， 如 图 15-14 给 出 的 例子 所 示 。 而 发 送 进 程 调 用 sendmsg 
发 送 数据 时 必须 作为 辅助 数据 包含 一 个 cmsgcred 结 构 才 会 随 数据 传 
递 凭证 。 需 注意 的 是 ， 尽 管 FreeBSD 要 求 凭证 发 送 进程 必须 提供 其 结 


构 ， 其 内 容 却 是 由 内 核 填 写 的 ， 发 送 进程 无 法 伪造 。 这 么 做 使 得 通过 
Unix 域 套 接 字 传 递 插 证 成 为 服务 右 验 证 客户 吴 份 的 可 靠 手 段 。 


例子 


作为 凭证 传递 的 一 个 例子 ， 我 们 把 上 一 节 中 的 Unix 域 字 节 流 服务 
句 程 序 改 为 服务 器 请 求 客 户 的 用 户 赁 证。 图 15-14 给 出 了 名 为 
read_cred 的 新 函数 ， 它 和 read 类 似 ， 不 过 同时 返回 一 个 含有 发 送 
进程 的 凭证 的 cmsgcred 结 构 。 


1 include "ur:p. h" 


uiixdomata'ceadcreed.c 


2 define CONTROL LEN (sizeofístruct -meg'dr) + sizeof(struct ansycred)}) 


3 esize t 
4 read cred(int fd, void *ptr, size t nbytes, struct crsqcred *cnsacredptr) 


s-rac- msghdr msg; 
ezruac- iovec :ovl-]; 
caar control [CONTROL_LEN] , 


iot "t 


msg.msj naue - NULL; 

mazq.moq nameler = D; 

icviI0l.iov bass = ptr; 

icv[ü] .iov len = nnuyces; 

mag.maq iov - iov; 

moq.moq_iovilen = l; 

mag.msg control - sontzol; 
msg.msqy_controllen = sizeo-icontr-l); 
mag.msq flsge = J; 


if ( (n = recwnsa/fd, amag, 0)? < 0) 
return ín} ; 


crsgcredpt r=scmcred :xjraups = 0; fe 


if (cmegeredptr su msg.msg controllan > ol | 
otruct cvechdr ‘cemptr = (struct cmechdr *) control; 


i= (omptr-vcemsg_len ~ CONTROL LEN! 

err_quit ("control length = kd", cmptr-»cmsg len): 
i= [cmztr-»cmeq level i= 30L SOCKET) 

err_quit ("control levs. != DOL SOCKET"); 
i= [emetr-»cmsg type != 3CM C3EDS! 

err quit("control typa !- SCN CREDS*); 


indicates ro credentisls returned ^/ 


memcpv(cmBqcredptr, CMSs -ATA(cmptr!, Eizeof(scruct cmeccre3)!; 


] 


returnin); 


[15-14 read cred: 读 取 并 返回 发 送 者 的 凭证 


undulamaiah vrdereda 


3-4 iEERZABJBI3T S XUllIreadERZ — f£, 第 四 个 参数 古 指 向 
某 个 cmsgcred 结 构 的 一 个 指针 ， 用 以 返回 客户 的 赁 证。 返回 的 辅助 
数据 格式 如 图 14-13 所 示 ， 不 过 其 中 的 fcredf{} 应 该 改 为 


cmsgcred() » 


22-31 如 果 有 凭证 返回 ， 我 们 就 验证 辅助 数据 的 长 度 、 级 别 和 
类 型 ， 然 后 从 中 取出 凭证 复制 到 由 调用 者 指定 的 cmsgcred 结 构 。 如 
果 无 返回 和 赁 证， RNIT 结构 置 0。 既 然 用 户 组 的 数目 
so _ngroups) 总 是 至 少 为 1， 其 值 为 0 就 是 向 调用 者 指出 内 核 

REE 


图 15-3 给 出 的 回 射 服务 器 程序 main 函 数 没 有 改动 。 图 15- 15 是 新 
版 的 str_echo 函 数 ， 它 改写 自 图 5-3。 该 函数 由 子 进程 在 父 进 程 接 受 
了 一 个 新 的 客户 连接 并 调用 fork 之 后 调用 。 


niixdomain’sirecia.c 


1 inclue “unp.h* 
2 ssize t read crediint, void =, size t, struct -msgcred *;; 


i void 
4 str ecbo(:nt socikfd) 


E ssize t n 

; int i: 

€ char suf ‘MAXLINED ; 

S struct cmsgcred cred; 
10 again: 
11 while ( (n = read cred(sock£d, buE, MAXLINE, &crzd!) > 0! | 
12 if 'cred.cmcred nzrcups == 0) | 

13 -rinrf(" (no cretenrials rerurned) Vr"); 
14 } slce | 
15 zrintf("PID of sender - $dMn', crez.cncred pid!; 
1€ princf ("real user TS = Sdn", nred.cmered uid); 
1 rinrf ("real grour ID = t&Mn', cres. cnered gid); 
16 zrintf("cffcct-vc user ID = *dMn", crcd.cmcred cuid}; 
19 rrintf("5d groups:", cred.cmcred ngrcups - 1); 
20 for (i121: i < crei Cormeen] ngroaips ; o+) 
21 printfí(" $d", cred.cmcred groupe [:]); 
22 zrintf ("in"): 
23 
24 Writen(sockfd, ruf, ni; 
2s } 
2€ i> (n c f && errm zz RINTR) 
zi goto again; 
26 else if (n < 0) 
29 err_sysi"str_ecko: read error"); 

ao ] 


arabcdenau rec inr 


图 15-15 str echoENZK: 请 求 客 户 的 凭 


11-~23， 如 果 有 凭证 返回 就 显示 它们 。 


24-25 循环 的 其 余部 分 没有 改动 。 这 段 代 码 把 来 自 客户 的 数据 
读 入 缓 神 区， 再 把 缓冲 区 中 的 数据 写 出 给 客户 。 


图 15-4 中 的 客户 程序 只 有 稍 许 改 动 ， 即 在 调用 sendmsg 时 传 入 一 
个 空 的 cmsgcred 结 构 (该 结构 由 内 核 自动 填写 ) 。 


在 运行 客 尸 之前， 我 们 可 以 使 用 id 命 令 查 看 个 人 的 当前 凭证 。 


freebsd % id 
uid=1007(andy) gid=1007(andy) groups=1007(andy), O(wheel) 


ETA OSTRAa, BES-A aAA, Hk 
务 器 产生 如 下 输出 。 


freebsd % unixstrserv02 
PID of sender = 26881 
real user ID = 1007 
real group ID = 1007 


effective user ID = 1007 
2 groups: 1007 0 


ERA BEA IRR Dr Cea ^ Eides 
给 出 的 结 采 相 匹配 。 
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15.9 ”小 结 


Unix 域 套 接 字 是 客户 和 服务 器 在 同一 个 主机 上 的 IPC 方 法 之 一 。 
与 IPC 其 他 方法 相 比 ，Unix 域 套 接 字 的 优势 体现 在 其 API 几 乎 等 同 于 网 
络 客户 /服务 器 使 用 的 API。 与 客户 和 服务 器 在 同一 个 主机 上 的 TCP 相 
比 ，Unix 域 字 节 流 套 接 字 的 优势 体现 在 性 能 的 增长 上 。 


我 们 把 目 己 的 TCP 和 UDP 回 射 客户 和 服务 器 程序 修改 成 了 使 用 
Unix 域 协议 的 版 本 ， 其 中 唯一 的 主要 差别 是 ， 必须 bind 一 个 路 径 名 到 
UDP 套 接 字 (对 应 Unix 域 数据 报 套 接 字 ) 的 客户 ， 以 使 UDP 服务 器 有 
发 送 应 答 的 目的 地 。 


同一 个 主机 上 客户 和 服务 器 之 间 的 摘 述 符 传 递 是 一 个 非常 有 用 的 
技术 ， 它 通过 Unix 域 套 接 字 发 生 。 我 们 在 15.7 世 中 展示 了 从 一 个 子 进 
程 到 其 父 进程 传递 回 一 个 摘 述 符 的 一 个 例子 。 我 们 还 将 在 28.7 闻 中 展 
示 客 户 和 服务 器 没有 亲 经 关系 的 一 个 例子 ， 在 30.9 节 中 展示 从 一 个 父 
进程 到 一 个 子 进程 传递 描述 符 的 例子 。 


习题 


15.1 ”如 有 果 一 个 Unix 域 服务 右 在 调用 bind 之 后 调用 unlink， 将 
BREA? 


15.2 ”如 果 一 个 Unix 域 服务 器 在 终止 时 不 unlink 它 的 众所周知 路 
径 名 ， 并 且 有 一 个 客户 试图 在 该 服务 器 终止 后 某 个 时 刻 connect 该 服 
务 器 ， 将 会 发 生 什么 ? 


15.3 ”如 下 修改 图 11-11: 显示 对 端的 协议 地 址 后 调用 sleep 
(5) ， 并 在 每 次 read 返 回 一 个 正 值 时 显示 由 read 返 回 的 字 节 数 。 


如 下 修改 图 11-14: 对 于 即将 发 送 给 客户 的 结果 中 的 每 个 字 节 分 别 
调用 write。 (我 们 已 在 习题 1.5 的 解答 中 讨论 过 类 似 的 修改 。) 在 同 
一 个 主机 上 使 用 TCP 运 行 这 两 个 客户 和 服务 器 程序 。 客 户 读 入 了 多 少 
SEW? 


在 同一 个 主机 上 使 用 Unix 域 套 接 字 运 行 这 两 个 客户 和 服务 器 程 
序 。 结 采 是 否 有 所 变化 ? 


然后 把 服务 器 程序 中 的 write 调用 改 为 send 调 用 ， 并 指定 
MSG_EOR 标 志 。 (完成 本 习题 需要 一 个 源 自 Berkeley 的 实现 。) 在 同 
一 个 主机 上 使 用 Unix 域 套 接 字 运 行经 修改 的 这 两 个 客户 和 服务 器 程 
序 。 结 果 是 否 有 所 变化 ? 
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15.4 编写 一 个 程序 以 确定 图 4-10 中 展示 的 值 。 方 法 之 一 是 先 创 
建 一 个 流 管道 ， 再 fork 成 一 个 父 进程 和 一 个 子 进 程 。 父 进程 进入 一 个 
for 循 环 ， 把 backlog 从 0 递增 到 14。 每 次 循环 回来 后 ， 父 进程 首先 把 
backlog 的 值 写 入 流 管道 。 子 进程 读 入 该 值 ， 创 建 一 个 套 接 字 ， 捆 绑 环 
回 地 址 到 其 上， 指定 backlog 为 所 读 入 的 值 调 用 listen， 从 而 得 到 一 
个 监听 套 接 字 。 子 进程 接着 通过 写 流 管道 告知 父 进 程 自己 已 准备 好 。 
父 进程 然后 和 演 试 建立 尽 可 能 多 的 连接 ， 以 检测 何 时 因 connect 阻 塞 而 
击 中 backlog 极 限 。 父 进程 可 以 设置 一 个 2 秒 钟 的 alarm 报 警 时 钟 以 检 


测 阻塞 的 connect“。 子 进程 从 不 调用 accept， 这 样 内 核 将 排队 来 目 
父 进程 的 所 有 连接 。 当 父 进 程 alarm 时 钟 报 警 时 ， 它 可 以 从 循环 计数 
器 获悉 击 中 backlog 极 限 的 是 哪个 connect。 父 进程 随后 关闭 所 有 用 于 
连接 党 试 的 套 接 字 ， 并 把 backlog 的 下 一 个 值 写 入 流 管道 供 子 进程 读 
有 取 。 子 进程 读 入 这 个 新 值 后 ， 关 闭 原来 的 监听 套 接 字 ， 创 建 一 个 新 的 
监听 套 接 字 ， 重 新 开始 上 述 过 程 。 


15.5 “验证 删 掉 图 15-6 中 的 bind 调 用 将 导致 服务 器 发 生 错误 。 
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第 16 章 ” 非 阻 塞 式 1/O 


16.1 概述 


套 接 字 的 默认 状态 是 阻塞 的 。 这 束 意 味 着 当 发 出 一 个 不 能 立即 完 
成 的 套 接 字 调 用 时 ， 其 进程 将 被 投入 睡眠 ， 等 得 相应 操作 完成 。 可 能 
阻塞 的 套 接 字 调 用 可 分 为 以 下 四 类 。 


(1) 输入 操作 ， 包 括 read、readv、recv、recvfrom 和 
recvmsg 共 5 个 函数 。 如 果 某 个 进程 对 一 个 阻塞 的 TCP 套 接 字 (默认 设 
置 ) 调用 这 些 输入 函数 之 一 ， 而 且 该 套 接 字 的 接收 缓冲 区 中 没有 数据 
可 读 ， 该 进程 将 被 投入 睡眠， 直到 有 一 些 数 据 到 达 。 有 既然 TCP 是 字 节 
流 协 议 ， 该 进程 的 唤醒 就 是 只 要 有 一 些 数据 到 达 ， 这 些 数据 既 可 能 是 
单个 字 节 ， 也 可 以 是 一 个 完整 的 TCP 分 节 中 的 数据 。 如 果 想 等 到 某 个 
固定 数目 的 数据 可 读 为 止 ， 那 么 可 以 调用 我 们 的 readn 函 数 (图 3- 
15) ， 或 者 指定 MSG_WAITALL 标 志 (图 14-6) 。 


既然 UDP 是 数据 报 协议 ， 如 果 一 个 阻塞 的 UDP 套 接 字 的 接收 缓冲 
对 筷 调用 输入 函数 的 进程 将 被 投入 睡眠 ， 直 到 有 UDP 数据 报 
ik © 


对 于 非 阻塞 的 套 接 字 ， 如 果 输 入 操作 不 能 被 满足 (对 于 TCP 套 接 
字 即 至 少 有 一 个 字 节 的 数据 可 读 ， 对 于 UDP 套 接 字 即 有 一 个 完整 的 数 
据 报 可 读 ) ， 相 应 调用 将 立即 返回 一 个 ENWOULDBLOCK 错 误 。 


(2) 输出 操作 ， 包 括 write、writev、send、sendto 和 
sendmsg 共 5 个 函数 。 对 于 一 个 TCP 套 接 字 我 们 已 在 2.11 节 说 过 ， 内 核 
将 从 应 用 进程 的 缓冲 区 到 该 套 接 字 的 发 送 缓冲 区 复制 数据 。 对 于 阻塞 
S a 空间 ， 进 程 将 被 投入 睡眠 ， 直 到 

空间 为 止 。 
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对 于 一 个 非 阻塞 的 TCP 套 接 字 ， 如 果 其 发 送 缓冲 区 中 根本 没有 空 
间 ， 输 出 函数 调用 将 立即 返回 一 个 EWOULDBLOCK 错 误 。 如 果 其 发 送 
缓冲 区 中 有 一 些 空 间 ， 返 回 值 将 是 内 核能 够 复制 到 该 缓冲 区 中 的 字 节 
数 。 这 个 字 节 数 也 称 为 不 足 计 数 (short count) ° 


我 们 还 在 2.11 世 说 过 ，UDP 套 接 字 不 存在 真正 的 发 送 缓冲 区 。 内 
核 只 坪 复 制 应 用 进程 数据 并 把 它 沿 协议 栈 癌 下 传达 ， 渐 次 冠 以 UDP 首 
部 和 了 P 首 部 。 因 此 对 一 个 阻塞 的 UDP 套 接 字 (默认 设置 ， 输 出 函数 
调用 将 不 会 因 与 TCP 套 接 字 一 样 的 原因 而 阻塞 ， 不 过 有 可 能 会 因 其 他 
的 原因 而 阻塞 。 


(3) 接受 外 来 连接 ， 即 accept 函 数 。 如 果 对 一 个 阻塞 的 套 接 字 调 
用 accept 画 数 ， 并 且 尚 无 新 的 连接 到 达 ， 调 用 进程 将 被 投入 睡眠 。 


如 果 对 一 个 非 阻塞 的 套 接 字 调用 accept 函 数 ， 并 且 尚 无 新 的 连 
接 到 达 ，accept 调 用 将 立即 返回 一 个 EWOULDBLOCK 错 误 。 


(4) 发 起 外 出 连接 ， 即 用 于 TCP 的 connect 函 数 。 (回顾 一 下 ， 我 
们 知道 connect 同 样 可 用 于 UDP， 不 过 它 不 能 使 一 个 “真正 ”的 连接 建 
立 起 来 ， 它 只 是 使 内 核 保存 对 端的 了 地 址 和 端口 号 。) 我 们 已 在 2.6 节 
展示 过 ，TCP 连 接 的 建立 涉及 一 个 三 路 握手 过程， 而 且 connect 画 数 
一 直 要 等 到 客户 收 到 对 于 自己 的 SYN 的 ACK 为 止 才 返 回 。 这 意味 着 
TCP 的 每 个 connect 总 会 阻塞 其 调用 进程 至 少 一 个 到 服务 器 的 RTT 时 
H] o 


如 果 对 一 个 非 阻塞 的 TCP 套 接 字 调用 connect， 并 且 连 接 不 能 立 
即 建立 ， 那 么 连接 的 建立 能 照样 发 起 〈 璧 如 送出 TCP 三 路 握手 的 第 一 
个 分 组 ) ， 不 过 会 返回 一 个 EINPROGRESS 错 误 。 注 意 这 个 错误 不 同 
于 上 述 三 个 情形 中 返回 的 错误 。 另 请 注意 有 些 连 接 可 以 立即 建立 ， 通 
常 发 生 在 服务 器 和 客户 处 于 同一 个 主机 的 情况 下 。 因 此 即使 对 于 一 个 
非 阻 塞 的 connect ， 我 们 也 得 预备 connect 成 功 返 回 的 情况 发 生 。 我 
们 将 在 16.3 广 展示 一 个 非 阻塞 connect 的 例子 。 


按照 传统 ， 对 于 不 能 被 满足 的 非 阻 塞 式 W/O 操作 ，System V 会 返回 
EAGAIN 错 误 ， 而 源 自 Berkeley 的 实现 则 返回 EWOULDBLOCK 错 误 。 顾 
及 历史 原因 ，POSIX 规 范 声 称 这 种 情况 下 这 两 个 错误 码 都 可 以 返回 。 
圣 运 的 是 ， 大 多 数 当 前 的 系统 把 这 两 个 错误 码 定义 成 相同 的 值 (检查 


一 下 你 自己 的 系统 中 的 <sys/errno.h> 头 文件 ) ， 因 此 具体 使 用 哪 
一 个 并 无 多 大 关系 。 我 们 在 本 书 中 使 用 EWOULDBLOCK。 


6.2 节 汇总 了 IO 的 各 种 可 用 模型 ， 并 比较 了 非 阻塞 式 HO 和 其 他 模 
型 。 在 本 章 中 ， 我 们 将 提供 上 述 所 有 四 类 操作 的 非 阻塞 式 VO 例 子 ， 并 
开发 一 个 类 似 Web 客 户 程序 的 新 型 客户 程序 ， 它 使 用 非 阻塞 connect 
同时 发 起 多 个 TCP 连 接 。 
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16.2 非 阻塞 读 和 写 : str cliEA (6 
订 版 ) 


我 们 再 次 回 到 在 5.5 节 和 6.4 节 讨论 过 的 str_c1i 函 数 。6.4 节 讲 过 
的 使 用 了 select 的 版 本 仍 使 用 阻塞 式 1HO。 举例 来 说 ， 如 果 在 标准 输 
入 有 一 行文 本 可 读 ， 我 们 就 调用 read 读 入 它 ， 再 调用 writen 把 它 发 
送 给 服务 器 。 然 而 如 果 套 接 字 发 送 缓冲 区 已 满 ，writen 调 用 将 会 阻 
塞 。 在 进程 阻塞 于 writen 调 用 期 间 ， 可 能 有 来 自 套 接 字 接 收 缓冲 区 
的 数据 可 供 读 取 。 类 似 地 ， 如 果 从 套 接 字 中 有 一 行 输入 文本 可 读 ， 那 
么 一 旦 标准 输出 比 网 络 还 要 慢 ， 进 程 照 样 可 能 阻塞 于 后 续 的 write 调 
用 。 丁 的 目标 是 开发 这 个 函数 的 一 个 使 用 非 阻 塞 式 IO 的 版 本 。 这 样 
可 以 防止 进程 在 可 做 任何 有 效 工 作 期 间 发 生 阻 塞 。 


不 笠 的 是 ， 非 阻塞 式 IO 的 加 入 让 本 函数 的 缓 神 区 管理 显著 地 复杂 
化 了 ， 因 此 我 们 将 分 斤 介 绍 这 个 轴 数 。 我 们 已 在 第 6 章 和 第 14 章 中 讨论 
过 在 套 接 字 上 使 用 标准 1/O 的 潜在 问题 和 困难 ， 它 们 在 非 阻 塞 式 WO 操 
作 中 显得 元 为 突出 。 本 例子 中 继续 避免 使 用 标准 IO 。 

我 们 维护 着 两 个 绥 冲 区 : to 容纳 从 标准 输入 到 服务 右 去 的 数据 ， 
fr 容纳 目 服务 器 到 标准 输出 来 的 数据 。 图 16-1 展 示 了 to 缓冲 区 的 组 织 
和 指 同 该 缓冲 区 中 的 指针 。 


标准 输入 
| 


toiptr &to [MAXLINE] 


Y 
33 453-42: HB ALL eas 用 = 从 brass Ac 
B= IRS AH J 数 据 quu 的 空闲 空间 


图 16-1 ”容纳 从 标准 输入 到 套 接 字 的 数据 的 缓冲 区 


其 中 toiptr 指 针 指 向 从 标准 输入 读 入 的 数据 可 以 存放 的 下 一 个 
字 节 。tooptr 指 向 下 一 个 必须 写 到 套 接 字 的 字 节 。 有 (toiptr- 
tooptr) 个 字 节 需 写 到 套 接 字 。 可 从 标准 输入 读 入 的 字 节 数 是 (&to 

[MAXLINE| -toiptr) 。 一 旦 tooptr 移 动 到 toiptr， 这 两 个 指 
针 就 一 起 恢复 到 缓冲 区 开始 处 。 


图 16-2 展 示 了 fr 缓冲 区 相应 的 组 织 。 


标准 输入 


tf [WAXLTNS] 


t 


用 于 从 套 接 字 读 取 
Eust aie n] 


kr i 


16-2 ”容纳 从 套 接 字 到 标准 输出 的 数据 的 缓冲 区 


图 16-3 给 出 了 本 函数 的 第 一 部 分 。 


noribiockSirciinonh.c 
1 #include "unp.h" 

2 void 

3 gzrY Cli(FZLE "fp, int cockfa) 


int. maxfdpl, val. stdinsof; 

esize t n, nwritten; 

fd oct roct, woct; 

char tofMAXLINE!, fr IMAXLINE] ; 

char  *toiptr, *tooptr, *friptr, *froptr: 


val = Fentl{sockid, F GEIFL, Uj); 


Pc 
lH C 60 -) ^4 54 


Pen-l(sockfd, F_SETFL, val | © NONB-OXK! ; 
12 val = PcntlíSTZ7N FILEND. F_GETFL, 0): 
13 FCnzl(STUIN FILENO, F SETFL, val | © NONELOCK|; 
14 val = PcntlíSTCOUT PILENO, P GETFL, 0); 
15 Fcn-l(STDO77 FILEMO, F SETFL, val | O NONBLOCK); 
16 toipt-z = tcoptr = to; /* initialize baffer pointers */ 
17 f-ipt- = froptr s fr; 
18 scdinecf - 0; 
19 maxfdpi = max'/max/3TDIN FILEMO, STDOUT_FILENI), sockfd! + 1; 
20 fer sp) ( 
21 FD ZaRC:&rset): 
22 FD ZzRO/&wset); 
23 if 'atdineaf == 0 428 -oip-r < &to[MAXLINS]! 
24 FD SET(STDIN FILENO, &rse-): /* read from stdin */ 
25 it ;Eripzr < &-r[MAXKLINE]! 
26 FD SET(sockfd, &rset), /* -ead from socxet */ 
27 if (teaprr !z toipte} 
29 HD SEI(sOCkfd, &wset); /* Gate to write to socket */ 
29 if ;Eropzr != friptr! 
30 FD SET(STDOUT FILENO, &wset!; /* data to write to stdout */ 
31 Select (maxfdpl, &rsst, Sweet, NULL, NULL); 


puatibicu A re danti 


图 16-3 str_c1i 函 数 第 一 部 分 : 初始 化 并 调用 select 
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把 描述 符 设 置 为 非 阻塞 


10-15 ”使 用 fcnt1 把 所 用 3 个 描述 符 都 设置 为 非 阻塞 ， 包 括 连 接 
到 服务 右 的 套 接 字 、 标 准 输入 和 标准 输出 。 


初始 化 缓冲 区 指针 


16-19 初始 化 指向 两 个 缓冲 区 的 指针 ， 并 把 最 大 的 描述 符号 加 
1， 以 用 作 select 的 第 一 个 参数 。 


主 循环 : 准备 调用 select 


20 ”和 本 函数 在 图 6-13 中 给 出 的 版 本 一 样 ， 这 个 版 本 的 主 循 环 也 
征 一 个 select 调 用 后 跟 对 所 关注 各 个 条 件 所 进行 的 单独 测试 。 


指定 所 关注 的 描述 符 


21-30 两 个 摘 述 符 集 都 匈 清 零 再 打开 最 多 2 位 。 如 采 在 标准 输入 
上 尚未 读 到 EOF， 而 且 在 to 缓冲 区 中 有 至 少 一 个 字 世 的 可 用 空间 ， 那 
束 打 开 读 描述 符 集 中 对 应 标准 输入 的 位 。 如 采 在 fr 缓冲 区 中 有 至 少 一 
个 字 节 的 可 用 空间 ， 那 就 打开 读 描述 符 集 中 对 应 套 接 字 的 位 。 如 有 在 
tok kX PAS SIEBEN. BATT TS ta VICI ae FOU IEEE 
字 的 位 。 最 后 ， 如 末 在 fr 缓冲 区 中 有 要 写 到 标准 输出 的 数据 ， 那 束 打 
开 写 描述 符 集中 对 应 标准 输出 的 位 。 


调用 select 


31 调用 select， 等 待 4 个 可 能 条 件 中 任何 一 个 变 为 真 。 我 们 没 
有 为 本 select 调 用 设置 超时 e 


str_cl1i 函 数 的 下 一 部 分 在 图 16-4 中 给 出 。 本 部 分 代码 包含 
select 返 回 后 执行 的 4 个 测试 中 的 前 2 个 。 


nonbiocksirciinent.c 


32 if (FD_ISSET(STDIN_FILENO, &rset)] | 
33 if | in = vead(STCIN FILEND, toistr, &zo(MAXLINE) - tcistr)) < o) 
34 it (errno |= EWOULDBLOCK) 
35 err sysi'resd error on stdin"'; 
36 } elae i? (rss 0) ( 
3 fprintf(stderr, "te: ZDF on etdin\n", gf time!,;)!: 
36 stdineof = 1: /* all done with stdin */ 
39 if {tooptr == toistr) 
a0 Shutdown (sockfd, SHUT WR): /* sen? FIN */ 
il ) eise | 
42 Eprintfistderr, "ts: read td bytes from stdin\n". gf timel), 
45 n); 
aq toiptr += n; /* H just read */ 
45 PD_SET(secktd, Swact); /* try and write to socket below */ 
4€ } 
4 ) 
4g it (FD ISSET(sockfd, irset)! [ 
19 if | in - zsadisockE£d, friptr, &£r[MAXLIND] - zriptrj) « 2) { 
56 if {errno != FWOUIDRLOCK) 
51 err sysi('rezd error on socket"); 
Su ) else if (r == 0) { 
S3 fprintf(stderzr, "bs: 30F on socketin", gq: cime()!; 
54 if fst Qin | 
ss retum: /* normal cermination */ 
SE alge 
57 err quit ("str cli: server terminated prematu-ely*); 
5E ) eise | 
59 fprintf|stdsrr, "ts: read td bytes from socket\n", 
AG gf time ), n); 
61 friptr += n; /* 4 just rzad */ 
62 FD SET(STDOUT PILENO, &wsct!; /* try and wri-e below */ 
62 } 
64 } 
nonbinckGiredinout.: 
图 16-4 str cli/NZÓB up: Neha A BREE A 


从 标准 输入 read 


32-33 ”如 果 标 准 输入 可 读 ， 那 就 调用 
是 to 缓冲 区 中 的 可 用 空间 量 。 


处 理 非 阻塞 错误 


34-35 如 果 发 生 一 个 EWOULDBLOCK 错 误 ， 
常情 况 下 这 种 条 件 “ 不 应 该 发 生 ， 因 为 这 种 条 件 


read。 指 定 的 第 三 个 参数 


我 们 就 忽略 它 。 通 
意味 着 ，select 告 知 


JUN 


我 们 相应 描述 符 可 读 ， 然 而 read 该 描述 符 却 返回 EWOULDBLOCK 错 


误 ， 不 过 我 们 无 论 如 何 还 是 处 理 这 种 条 件 。 


read 返 回 EOF 


36-40 ”如 果 read 返 回 0， 那 么 标准 输入 处 理 就 此 结束 ， 我 们 还 
设置 stdineof 标 志 。 如 果 在 to 缓冲 区 中 不 再 有 数据 要 发 送 (BD 
tooptr 等 于 toiptr) ， 那 就 调用 shutdown 发 送 FIN 到 服务 器 。 如 
果 在 to 缓冲 区 中 仍 有 数据 要 发 送 ，FIN 的 发 送 就 得 推迟 到 缓冲 区 中 数 
据 已 写 到 套 接 字 之 后 。 
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我 们 输出 一 行文 本 到 标准 错误 输出 以 表示 这 个 EOF， 同 时 输出 当 
前 时 间 。 本 输出 信息 的 用 途 会 在 讲解 完 本 函数 之 后 展示 。 类 似 的 
fprintf 在 本 函数 中 还 多 处 出 现 。 
read 返 回 数 据 


41-45 当 read 返 回 数据 时 ， 我 们 相应 地 增加 toiptr。 我 们 还 
打开 写 摘 述 符 集中 与 套 接 字 对 应 的 位 ， 使 得 以 后 在 本 循环 内 对 该 位 的 
测试 为 真 ， 从 而 导致 调用 write 写 到 和 均 接 字 。 
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这 年 编写 代码 时 需要 做 出 的 艰难 抉择 之 一 。 这 里 有 者 干 个 手段 可 
供 选 择 。 我 们 可 以 什么 都 不 做 ， 不 用 在 写 集 合 中 设置 位 ， 这 种 情况 下 
select 将 在 下 次 被 调用 时 测试 套 接 字 的 可 写 性 。 然 而 这 个 无 为 手段 
要 求 在 已 知 有 数据 要 写 到 套 接 字 的 情况 下 ， 再 次 进入 为 一 轮 循环 以 调 
用 select。 男 一 个 手段 是 将 用 于 写 到 人 套 接 字 的 代码 复制 至 此 。 然 而 
这 个 手段 不 仅 看 似 浪费 ， 而 且 苹 一 个 潜在 的 犯错 根源 (万 一 被 复制 的 
代码 中 存在 某 个 缺陷 ， 而 我 们 只 在 其 中 某 个 位 置 修 复 了 该 缺陷 ， 却 起 
了 男 一 个 位 置 ) 。 再 一 个 手段 是 创建 一 个 写 到 套 搂 字 的 函数 ， 并 以 调 
用 该 琅 数 取代 代码 复制 。 然 而 这 个 手段 要 求 该 男 数 共 译 str_c1l1i 的 3 
个 局 部 变量 ， 有 可 能 使 得 这 些 变 量 成 为 全 局 变量 。 在 这 里 所 作出 的 选 
择 是 作者 目 认 为 最 好 的 。 


从 套 接 字 read 


48-64 ”这 上 段 代码 类 似 于 刚才 讲解 的 处 理 标准 输入 可 读 条 件 的 if 
语句 。 如 果 read 返 回 EWOULDBLOCK 错 误 ， 那 么 不 做 任何 处 理 。 如 果 
遇 到 来 和 目 服 务 恬 的 EOF， 那 么 知 我 们 已 经 在 标准 输入 上 遇 到 EOF 则 没 
有 问题 ， 否 则 来 自 服 务 器 的 EOF 并 非 预期 。 如 果 read 返 回 一 些 数据 ， 
我 们 就 相应 地 增加 friptr， 并 把 写 描述 符 集 中 与 标准 输出 对 应 的 位 
打开 ， 以 尝试 在 本 函数 第 三 部 分 中 将 这 些 数据 写 出 到 标准 输出 。 


图 16-5 给 出 了 本 画 数 的 最 后 一 部 分 。 


nonbioc’Sirciinonb.c 


65 if (FD_ISSET(STDOUT_FILENO, &wseL' && i (n = friptlr - frcopLcy) > 01) ( 
EG if ( ‘nwritten = write (STOOUT_FILENO, Eropcr, n)! < 0) { 

E7 if (arrnc !« EWOULDELOCK) 

ES Sry_sys("write error zo stdout"!; 

69 ) else í 

19 fprintf/stderr, "ts: wrcte td bytes to stdcut\n", 

71 qat tinc(), nmwrictten!; 

72 froptr +- nwritten; j^ # just writter */ 

74 if (froprr == Sriptr) 

14 froptr = friptr = fr;  /* back to beginring of buffer */ 
75 ) 

76 ) 

y i= (FD :sSE-(&ockfd, Sweet} && ( (n = toipzr - tooptr) > UJ) { 

78 if ( inwritten = writzí(asockfd, tooptr, n)) < Ol | 

79 if (erene t= EWOULDBLOCK) 

E0 err sys("write error zo socket"); 

62 ) else « 

82 fprintf(stderr, "s: wrcte td bytes to socket\n", 

t3 of timo), rwrlittan); 

£4 tooptr +- nwritten; /* & just vricten */ 

F5 if (feaptr == toiptr) { 

E6 toiptr = tooptr = to;  /* back to beginring of buffer */ 
&7 it ;stdineot, 

E8 Shutdown !sockÉd, SHUT WR) j* senc PIN */ 

R9 ) 

20 } 

91 } 

$2 

$3 


一 DT 


图 16-5 ”str_cli 函 数 第 三 部 分 ， 写 到 标准 输出 或 套 接 字 
441 
write 到 标准 输出 


65-68 ”如 果 标 准 输 出 可 写 而 且 要 写 的 字 节 数 大 于 0， 那 就 调用 
write。 如 果 返 回 EWOULDBLOCK 错 误 ， 那 么 不 做 任何 处 理 。 注 意 这 


种 条 件 完 全 可 能 发 生 ， 因 为 本 函数 第 二 部 分 末尾 的 代码 在 不 清楚 
write 是 否 会 成 功 的 前 提 下 束 打 开 了 写 描述 符 集 中 与 标准 输出 对 应 的 
位 。 
write 成 功 

69-75 如 果 write 成 功 ，froptr 就 增 以 写 出 的 字 节 数 。 如 果 


输出 指针 (froptr) 追 上 输入 指针 (friptr) ， 这 两 个 指针 就 同时 
恢复 为 指向 缓冲 区 开始 处 。 


write 到 套 接 字 


77-91 这 段 代 人 码 类 似 于 刚才 讲解 的 处 理 标准 输出 可 写 条 件 的 if 
语句 。 唯 一 的 差别 是 当 输 出 指针 追 上 输入 指针 时 ， 不 仅 这 两 个 指针 同 
时 恢复 到 缓冲 区 开始 处 ， 而 且 如 果 已 经 在 标准 输入 上 遇 到 EOF 束 要 发 
送 FIN 到 服务 器 。 


我 们 接着 查看 本 函数 的 操作 以 及 非 阻塞 式 WO 间 的 迭 合 。 图 16-6 给 
出 了 本 函数 调用 的 gf_time 函 数 。 


lib/gf tirte.c 
1 #include "uip.lh" 
2 finclud2e «time.h> 
5 cher * 
4 gf time (void) 
e 
é struct timeval cv; 
F i static char str [30]: 
t char *ptr; 
9 i? (gettimaofday(&zv, NULL; < 0! 
10 err_cyc|"qettamcotday error"); 
11 ptr = ctime (stv.tv sec}; 
12 strcpy(str, SptrI11l!; 
13 /* Fri Sep -3 90:09:00 1986\n\0 */ 
14 /* 01234€678901234567890123Q 5  */ 
15 onprintft(str + 8, sascot(ctr) 8, ",t$061d", tv.tv usec); 
Lë return (str); 
17 ) 
tibia Ninte.c 


图 16-6 gf time/xZi: 返回 指向 时 间 字 符 串 的 指针 


gf_time 函 数 返 回 一 个 含有 当前 时 间 的 字符 串 ， 包 括 微 秒 ， 格 式 
如 下 : 


12:34:56.123456 
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这 里 特意 采用 与 tcpdump 的 时 间 惟 输出 一 致 的 格式 。 还 要 注意 的 
是 ，str_c1li 画 数 中 的 所 有 fprintf 调 用 都 写 到 标准 错误 输出 ， 使 得 
我 们 能 够 区 分 标准 输出 〈 内 容 为 由 服务 器 回 射 的 文本 行 ) 和 诊断 输 
出 。 这 样 一 来 我 们 可 以 同时 运行 我 们 的 TCP 回 射 客户 程序 和 tcpdump 
程序 ， 并 把 得 到 的 诊断 输出 和 tcpdump 输 出 放 在 一 起 按时 间 统 一 排 
序 。 我 们 可 以 从 中 查看 本 客户 程序 中 到 底 发 生 了 什么 ， 并 和 相应 的 
TCP 行 为 相关 联 。 

举例 来 说 ， 我 们 首先 在 主机 solaris 上 运行 tcpdump， 指 定 捕 获 


只 去 往 或 来 自 端 口 7 ( 回 射 服务 器 ) 的 TCP 分 节 ， 程 序 输出 存 到 在 名 为 
tcpd 的 文件 中 : 


solaris % tcpdump -w tcpd tcp and port 7 


然后 在 同一 个 主机 上 运行 我 们 的 TCP 客 户 程序 ， 指 定 连接 到 主机 
]inux 上 的 标准 echo 服 务 句 : 


标准 输入 是 文件 2000 .1ines， 曾 用 于 讨论 图 6-13。 标 准 输 出 发 
送 到 文件 out ， 标准 错误 输出 发 送 到 文件 diag。 程 序 执行 完毕 后 我 们 


以 验证 回 射 文本 行 等 同 于 输入 文本 行 。 最 后 我 们 用 中 断 刍 终止 
tcpdump， 和 输出 tcpdump 记 录 ， 并 整合 客户 程序 的 诊断 输出 一 起 排 
序 。 图 16-7 给 出 了 这 个 结果 的 第 一 部 分 。 


scolaris % tcpdump -r tcpd -N | sort diag - 
10:18:34.486392 solaris.33621 > lirux.echo: S 1€027386494:1802738£44 (9} 

win §760 <mse 1460> 
10:12:34.468273 linux.eczo > solaris.23621: 5 3212926316:321258621610} 

ack 1802738645 win 87650 «mss 146502 
10:18:34.46849°0 solaris.33671 > lirux.echo: . ack 1 win 8760 


10:18:34.491482: read 4026 bytes from stdin 

10:18:34,513663 solaris.33621 > lirux.echo: P .:1461(1460) acx 1 win 8750 
10:18:34.519015: wrote 4096 bytes to sccket 

10:18:34.528527 linux.ec-zc > solaris.33621: P 1:1461(1460) ac« 1461 win 8760 
10:12:34.528765 solaris.33621 > lirux.echo: . 1461:2921(2460) ack 1451 win 87672 
10:18:34,528907 solaris.33621 > lirux.echo: P 2921:4097(7176) ack 1451 win 876^ 
10:18:34.523958 solaris.33621 > linux-echo: . ack 1461 win 8760 

10:18:34.536193 linux.eczc > solaris.33621: . 1461:2921(2460) ack 4097 win 376¢ 
10:18:34.536697 linux.eczo > solaris.23621: P 2921:3509(588; ack 1097 win £760 
10:12:34.54365:: read 4056 bytes fron stdin 

10:18:234.56850z:: read 3528 bytes from socket 

10:18:34.580373 solaris.23621 > lirux.echo: . ack 3209 win 874 

10:18:34.582244 linux.ec-o > solaris 33621: P 3509:4097(588) ack 4097 win £760 
10:18:34.593354: wrote 3508 bytes to stdout 

10:18:34.617272 solaris.33621 > lirux.echo: P 4097:5557(1460) ack 4097 win 876¢ 
10:18:34.617610 solaris.33621 > lirux.echo: P 5557:7017(1460) ack 4037 win 8762 
10:12:34.617903 solaris.33621 > lirux.ccho: P 7017:2193(1176) ack 4097 win 8767 
10:12:34.618062: wrote 4296 bytes to sccket 

10:18:34.623310 linux.ec-a > solaris.33621: . ack 8193 win 8750 

10:18:34.626123 linux echo > solaris.33621: . 4097:2557(2460) ack 8193 win 876^ 
10:18:34.626332 solaris.33621 > lirux.echo: . ack 5557 win 8760 

10:18:34.626611 linux.ec-c > solaris.33621: P 5557:51425(588,; ack 8193 win E760 
10:12:34.628395 linux.echo > solaris.33621: . 6145:7605(-460) ack 8193 win 8767 


10:12:34.643524: read 4056 bytes from stdin 

10:12:34.667305: read 2636 bytes from socket 

120:18:34,670324 solaris. 33621 > lirux.echo: . ack 7505 win 8750 
10:18:34.672221 linux echo > solaris.33621: P 7605:8192(588) ack 8193 win 8760 
10:18:34.691032: wrote 2636 bytes to stdout 


图 16-7 ”排序 后 的 tcpdump 输 出 和 诊断 输出 


我 们 对 那些 包含 SYN 的 过 长 的 行进 行 了 折 行 处 理 ， 并 删 掉 了 
Solaris 分 节 的 不 分 片 (DE) 记号 ， 该 记号 表示 设置 了 不 分 片 位 (用 于 
路 径 MTU 发 现 ) e 


根据 这 个 输出 ， 我 们 可 以 把 发 生 的 事情 以 时 间 线 图 描绘 出 来 。 图 
16-8 展 示 了 这 个 结果 ， 其 中 时 间 按 向 下 方向 递增 。 


THe PH er) fr 
WEL ALK 


标准 输入 一 一 


4 95 


4096 
标准 输入 -— 


标准 输电 


标准 输入 


IE De 


图 16-8” 非 阻塞 式 WVO 例 子 的 时 间 线 
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我 们 没有 在 图 中 绘 出 ACK 分 记 。 还 要 意识 到 的 是 ， 当 程序 输 
出 “wrote N bytes to stdout (CANF TSERE H) "E, write 
用 已 经 返回 ， 并 可 能 导致 TCP 发 送 了 一 个 或 多 个 分 和 的 数据 。 


我 们 从 这 幅 时 间 线 图 可 以 看 出 客户 /服务 句 数 据 交 换 的 动态 性 。 使 
用 非 阻塞 式 MO 使 程序 能 发 挥动 态 性 的 优势 ， 只 要 IO 哥 作 有 可 能 发 
生 ， 就 执行 合适 的 读 操 作 或 写 操作 。 通 过 使 用 select 函 数 ， 我 们 让 
内 核 可 以 告诉 我 们 何 时 某 个 W/O 操作 可 以 发 生 。 


我 们 可 以 像 在 6.7 世 展示 的 那样 使 用 相同 的 2000 行 文件 和 相同 的 服 
务 器 主机 ( 它 与 客户 主机 间 的 RTT 为 175 ms) 测算 执行 非 阻 塞 版 客户 
程序 所 花 的 上 时间。 执行 非 阻塞 版 本 的 时 钟 时 间 (clock time) 为 6.9 
s， 比 照 6.7 市 中 的 版 本 执行 时 钟 时 间 为 12.3s。 因 此 整 本 例子 而 言 ， 非 
咀 塞 式 W/O 整体 上 减少 了 往 服务 器 发 送 一 个 文件 所 花 的 时 间 。 


445 


16.2.1 str_cli 的 较 简单 版 本 


刚才 给 出 的 str_c1li 函 数 非 阻塞 版 本 比较 复杂 一 一 约 有 135 行 代 
码 ， 与 之 相 比 ， 图 6-13 中 使 用 select 和 阻塞 式 WVO 的 版 本 有 着 40 行 代 
码 ， 而 最 初 的 停 一 等 版 本 (图 5-5) 则 只 有 区 区 20 行 代码 。 我 们 知道 代 
码 长 度 从 20 行 倍增 到 40 行 的 努力 是 值得 的 ， 因 为 在 批量 模式 下 执行 速 
度 几 乎 提高 了 30 倍 ， 而 且 在 阻塞 的 描述 符 上 使 用 select 并 不 太 复 
杂 。 然 而 考虑 到 结果 代码 的 复杂 性 ， 把 应 用 程序 编写 成 使 用 非 阻塞 式 
IO 的 努力 是 否 照样 值得 呢 ? 回答 是 否定 的 。 每 当 我 们 发 现 需要 使 用 非 
阻塞 式 IO 时 ， 更 简单 的 办 法 通常 是 把 应 用 程序 任务 划分 到 多 个 进程 

(使 用 fork) 或 多 个 线程 (第 26 章 ) 


图 16-10 是 str_cli 画 数 的 男 一 个 版 本 ,该 画 数 使 用 fork 把 当前 
进程 划分 成 两 个 进程 。 

这 个 函数 一 开始 束 调 用 fork 把 当前 进程 划分 成 一 个 父 进 程 和 一 个 
子 进程 。 子 进程 把 来 目 服 务 万 的 文本 行 复制 到 标准 输出 ， 父 进程 把 来 
目标 准 输入 的 文本 行 复制 到 服务 器 ， 如 图 16-9 所 示 。 


g 一 个 TCP 连 湾 (EMI) 
Pd 
标准 输入 


bir tht 


图 16-9 (EFA SRE str_climay 


norbiockSsirelifork.c 


1 include "unp.h" 

2 void 

3 otr CLiI{FILE *tp, int cocktd 

zl + 

5 pid t. pid; 

6 enar serdlia^e[MAXLINE], recvline [MAXLINE] ; 

7 iE ( (pid = Fork() == 0) f /* chalc: esrver -> stdout */ 
8 while (Readlineisockid, recvline, MAXLINE] > 0) 

9 Fputs!recvline, sbdouli; 

19 kilil (getopid(), SIGTERM) ; /* in cass parent still running */ 
il exit (0) ; 

12 J 

13 J* parent: stdin -> server */ 

14 waile (rgets(sendline, MAXLINHK, fp) != NULL; 

15 Wzitcn(so2c«fd, sendline, a3strleon(sendlirnc)|; 

16 Samutdown!sockfz2, SHUT WR!;:; /* BOF on stdin, send FIN */ 
17 pause): 

18 return; 

19 : 


nonbiock/sreüfork.c 


图 16-10 (f&flforkBüystr clilKZ& 


我 们 在 图 中 明确 地 指出 所 用 TCP 连 接 是 全 双 工 的 ， 而 且 父子 进程 
共 至 同一 个 套 接 字 :， 父 进程 往 该 套 接 字 中 写 ， 子 进程 从 该 套 接 字 中 
读 。 尽 管 套 接 字 只 有 一 个 ， 其 接收 缓冲 区 和 发 送 缓冲 区 也 分 别 只 有 一 
个 ， 然 而 这 个 套 接 字 却 有 两 个 描述 符 在 引用 它 ， 一 个 在 父 进 程 中 ， 男 
二 个 在 进程 中 


我 们 同样 需要 考虑 进程 终止 序列 。 正 党 的 终止 序列 从 在 标准 输入 
上 人 表 到 EOF 之 时 开始 发 生 。 父 进程 读 入 来 自 标 准 输入 的 EOF 后 调用 
shutdown 发 送 FIN。 ( 父 进程 不 能 调用 close， 见 习题 15.1。) 但 当 
这 发 生 之 后 ， 子 进程 需 继 续 从 服务 器 到 标准 输出 执行 数据 复制 ， 直 到 
在 套 接 字 上 读 到 EOF 。 


服务 器 进程 过 早 终止 也 有 可 能 发 生 (5.12 节 ) 。 要 是 发 生 这 种 情 
况 ， 子 进程 将 在 套 接 字 上 读 到 EOF。 这 样 的 子 进程 必须 告知 父 进程 停 
止 从 标准 输入 到 套 接 字 复制 数据 (见习 题 16.2) 。 在 图 16-10 中 ， 子 进 
程 向 父 进程 发 送 一 个 SITGTERM 信 号 ， 以 防 父 进程 仍 在 运行 (见习 题 
16.3) 。 如 此 处 理 的 另 一 个 手段 是 子 进程 无 为 地 终止 ， 使 得 父 进程 

(如 果 仍 在 运行 的 话 ) 捕获 一 个 SIGCHLD 信 号。 


父 进 程 完 成 数据 复制 后 调用 pause 让 自己 进入 睡眠 状态 ， 直 到 捕 
获 一 个 信号 ( 子 进程 来 的 SIGTERM 信 号 ) ， 尽 管 它 不 主动 捕获 任何 信 
号 。SIGTERM 信 号 的 默认 行为 是 终止 进程 ， 这 对 于 本 例子 是 合适 的 。 
我 们 让 父 进 程 等 等 子 进程 的 日 的 在 于 精确 测量 调用 此 版 str_cli 函 数 
的 TCP 客 户 程 序 的 执行 时 钟 时 间 。 正 常情 况 下 子 进程 在 父 进程 之 后 结 
束 ， 然 而 我 们 用 于 测量 时 钟 时 间 的 是 shell 内 部 命令 time， 它 要 求 父 进 
程 持续 到 测量 结束 时 刻 e 


注意 该 版 本 相 比 本 蔬 前 面 给 出 的 非 阻塞 版 本 体现 的 简单 性 。 非 阻 
塞 版 本 同时 管理 4 个 不 同 的 MO 流 ， 而 且 由 于 这 4 个 流 都 是 非 阻 塞 的 ， 我 
们 不 得 不 考虑 对 于 所 有 4 个 流 的 部 分 读 和 部 分 写 问 题 。 然 而 在 fork 版 
本 中 ， 每 个 进程 只 处 理 2 个 MO 流 ， 从 一 个 复制 到 另 一 个 。 这 里 不 需要 
2 因为 如 果 从 输入 流 没有 数据 可 读 ， 往 相应 的 输出 流 瓯 没 

A] & o 


16.2.2 str_c1i 执 行 时 间 


我 们 已 经 给 出 str_c1i 函 数 的 4 个 不 同 版 本 。 以 下 是 调用 这 些 版 
本 以 及 一 个 使 用 线程 的 版 本 (图 26-2) 的 TCP 客 户 程序 执行 时 钟 时 间 
的 汇总 ， 测 量 环境 是 从 一 个 Solaris 客 户主 机 向 RTT 为 175 毫 秒 的 一 个 服 
务 器 主机 复制 2000 行 文本 。 
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。 354.0 秒 ， 停 等 版 本 (图 5-5) 。 

。12.3 秒 ，select 加 阻塞 式 IO 版 本 (图 6-13) ° 
。 6.9 秒 ， 非 阻塞 式 MO 版 本 (图 16-3) » 

。 8.7 秒 ，fork 版 本 〈 图 16-10) ° 

。 8.5 秒 ， 线 程 化 版 本 (图 26-2) 。 


非 阻塞 版 本 几乎 比 Select 加 阻塞 式 W/O 版 本 快 出 一 倍 。fork 版 本 
比 非 阻塞 版 本 稍 慢 ， 然 而 考虑 到 非 阻塞 版 本 代码 相 比 fork 版 本 代码 的 
复杂 性 ， 我 们 推荐 简单 得 多 的 fork 版 本 。 


16.3 dEBH3Econnect 


当 在 一 个 非 阻塞 的 TCP 套 接 字 上 调用 connect 时 ，connect 将 立 
即 返 回 一 个 EINPROGRESS 错 误 ， 不 过 已 经 发 起 的 TCP 三 路 握手 继续 进 
行 。 我 们 接着 使 用 Select 检测 这 个 连接 或 成 功 或 失败 的 已 建立 条 
件 。 非 阻塞 的 connect 有 三 个 用 途 。 


(1) 我 们 可 以 把 三 路 握手 县 加 在 其 他 处 理 上 。 完 成 一 个 connect 
要 花 一 个 RIT 时 间 (2.55) ， 而 RIT 波 动 范围 很 大 ， 从 局 域 网 上 的 几 
个 晕 秒 到 几 百 个 襄 秒 长 至 是 广域网 上 的 几 秒 。 这 段 时 间 内 也 许 有 我 们 
想 要 执行 的 其 他 处 理工 作 可 执行 。 


(2) 我 们 可 以 使 用 这 个 技术 同时 建立 多 个 连接 。 这 个 用 途 已 随 着 
Web 浏 览 右 变 得 流行 起 来 ， 我 们 将 在 16.5 广 给 出 这 样 的 一 个 例子 。 


(3) 既然 使 用 select 等 待 连接 的 建立 ， 我 们 可 以 给 select 指 定 
一 个 时 间 限 制 ， 使 得 我 们 能 够 缩短 connect 的 超时 。 许 多 实现 有 着 从 
75 秒 钟 到 数 分 钟 的 connect 超 时 时 间 。 应 用 程序 有 时 想 要 一 个 更 短 的 
超时 时 间 ， 实 现 方 法 之 一 就 是 使 用 非 阻塞 connect“。 我 们 已 在 14.2 节 
讨论 过 在 套 接 字 操 作 上 设置 超时 时 间 的 其 他 方法 。 


非 阻 窟 connnct 虽 然 听 似 简单 ， 却 有 一 些 我 们 必须 处 理 的 细 市 。 


。 尺 管 套 接 字 是 非 阻塞 的 ， 如 果 连 接 到 的 服务 器 在 同一 个 主机 上 ， 
a ME 连接 通常 立刻 建立 。 我 们 必须 处 理 
这 种 情形 。 

。 源 自 Berkeley 的 实现 (和 POSIX) 有 关于 select 和 非 阻 塞 
connect 的 以 下 两 个 规则 : — (1) 当 连 接 成 功 建立 时 ， 描 述 符 变 
为 可 写 〈TCPv2 第 531 页 ) ; (2) 当 连 接 建 立 遇 到 错误 时 ， 摘 述 
符 变 为 既 可 读 又 可 写 (TCPV2 第 530 页 ) ° 
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KT selectHiX A SAW Hi B 6.375 PRT HT LAG AR AE 
天 规则 。 一 个 TCP 套 接 字 变 为 可 写 的 条 件 是 : 其 发 送 缓冲 区 中 有 可 用 


空间 〈《 对 于 连接 建立 中 的 套 接 字 而 言 本 于 条 件 总 为 真 ， 因 为 尚未 往 其 
中 写 出 任何 数据 ) ， 并 且 该 套 接 字 已 建立 连接 (本 子 条 件 为 真 发 生 在 
SPAR BU) TTIP rT ERAS MAAN, DUI 
MERDE BUZ EAR SEO WE n] EY o 


在 下 面 的 例子 中 我 们 将 所 及 有 关 非 阻塞 connect 的 许多 移植 性 问 


题 


16.4 d3EBHSEconnect: 时 间 获 取 客 户 程 
序 


图 16-11 给 出 的 connect_nonb 画 数 执行 一 个 非 阻塞 connect 。 
我 们 把 图 1-5 的 connect 调 用 替换 成 ; 


lib/connect. ront.c 
1 #inclwie "ump. h" 


2 int 

3 connect ronb(:nt socktd, cornet SA *saptr, Eocklen ^ salen, int neac) 
4 | 

5 int Mags, n, error; 

& sockler t len; 

Y) fd cet reet, weet; 

9 struct timeval val: 

$ flags = Fentl!sockfd, F GETFL, 4); 

10 Fcn-l(sock£d, F SETFL, flags | € NONBLOCE); 

11 error = C: 

12 if ( (r - connacz/sockfd, ssptr, salen)! < 0) 

13 it ;srrno l= EINPEOGCREZSS) 

14 rczurn( 1); 

15 /* Do whatever we want while Lhe commecl is Lak_ng place. */ 
16 if (n == 0) 

" goto done; f* cormect completed immediately */ 
18 FD ZBRO[&rset): 

19 Fn SET (sack fa, h&rset!; 

20 ws m "seb. 

21 tva] Lw wer m cme? 

22 rval.rv USsse = 0; 

23 if ( (r = Zelect(sockfd41, &rsecz, &waset, NULL. 

24 nsec ? 让 ve- : MULL)) == 0) [| 

25 cl2sa|sockfd,; /* timeout */ 

26 errno = ZTIMEDOUT; 

27 return (-1) ; 

28 ) 

29 if (FD _isser(ecekfd, reet) | sb Isser(ceckfd, Ewaet)) f 
30 len = sizeof (error); 

31 if jcecsockopt (sockfd, SOL_SOCKET, SC_ERROR, gerros, &len) < 9) 
32 return(-1); /* Solaris pending erro- */ 

35 ] else 

34 err_quit ("select error: scckfd not set"); 

35 done: 

A6 Found (sockfd, F_SRTFT, flags); /* restore f le status flags */ 
37 if (error) ¢ 

38 close {sockfd) ; /* just zn case */ 

39 errno = error; 

au return(-1); 

11 ] 

42 return (0); 
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lib/connect nont.c 


图 16-11 ”发 起 一 个 非 阻塞 connect 


if (connect nonb(sockfd, (SA* ) &servaddr, sizeof(servaddr), 0) 
&lt; 0) 


err sys("connect error"); 


它 的 前 3 个 参数 和 connect 的 一 样 ， 第 四 个 参数 是 等 竺 连接 完成 
的 秒 数 。 值 为 0 暗 指 不 给 select 设 置 超时 ， 因 此 内 核 将 使 用 通 第 的 


TCP 连 接 建 立 超时 。 
设置 套 接 字 为 非 阻塞 

9-10 调用 fcnt1 把 套 接 字 设置 为 非 阻 塞 。 

11-14 发 起 非 阻塞 connect。 期 望 的 错误 是 EINPROGRESS 
表示 连接 建立 已 经 启动 但 是 尚未 完成 (TCPV2 第 466 页 ) 。connect 返 
回 的 任何 其 他 错误 返回 给 本 函数 的 调用 者 。 

在 其 他 处 理 上 和 迭 合 连接 建立 
15 至 此 我 们 可 以 在 等 竺 连接 建立 完成 期 间 做 任何 我 们 想 做 的 事 


情 
检查 连接 是 否 立 即 建立 


16-17 ”如果 非 阻塞 connect 返 回 0， 那 么 连接 已 经 建立 。 我 们 
已 经 说 过 ， 当 服务 问 处 于 客户 所 在 主机 时 这 种 情况 可 能 发 生 。 


调用 select 


18~24， 调 用 select 等 待 套 接 字 变 为 可 读 或 可 写 。 我 们 清 零 
rset， 打 开 这 个 描述 符 集 中 对 应 sockfd 的 位 ， 然 后 将 rset 复 制 到 
wset。 复 制 描述 符 集 的 赋值 可 能 是 一 个 结构 赋值 ， 因 为 描述 符 集 通 常 
作为 结构 表示 。 我 们 还 初始 化 timeval 结 构 ， 然 后 调用 select。 如 
果 调 用 者 把 第 四 个 参数 指定 为 0 (表示 使 用 默认 超时 时 间 ) ， 那 么 我 们 
必须 把 select 的 最 后 一 个 参数 指定 为 一 个 空 指 针 ， 而 不 是 一 个 值 为 0 
的 timeval 结 构 (后 者 意味 着 根本 不 等 待 ) 。 


处 理 超时 

25-28 如 果 select 返 回 0， 那 么 超时 发 生 ， 我 们 于 是 返回 
ETIMEOUT 错 误 给 调用 者 。 我 们 还 要 关闭 套 接 字 ， 以 防止 已 经 启动 的 
三 路 握手 继续 下 去 。 
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检查 可 读 或 可 写 条 件 


29-34 ”如 果 摘 述 符 变 为 可 读 或 可 写 ， 我 们 就 调用 getsockopt 
取得 套 接 字 的 待 处 理 错误 (使 用 SO_ERROR 套 接 字 选项 ) 。 如 果 连 接 
成 功 建立 ， 该 值 将 为 0。 如 果 连 接 建立 发 生 错 误 ， 该 值 束 是 对 应 连接 错 
误 的 errno 值 ( 壁 如 ECONNREFUSED、ETIMEDOUT 等 ) 。 这 里 我 们 
会 遇 到 第 一 个 移植 性 问题 。 如 果 发 生 错 误 ，getsockopt 源 上 自 
Berkeley 的 实现 将 在 我 们 的 变量 error 中 返回 待 处理 错误 ， 
getsockopt 本 身 返 回 0; 然而 Solaris 却 让 getsockopt 返 回 -1， 并 把 
errno 变 量 置 为 待 处 理 错误 。 不 过 我 们 的 程序 能 够 同时 处 理 这 两 种 情 


ie 


关闭 非 阻塞 状态 并 返回 


36-42 ”恢复 套 接 字 的 文件 状态 标志 并 返回 。 如 有 果 自 
getsockopt 返 回 的 error 变 量 为 韭 0 值 ， 我 们 就 把 该 值 存 入 errno， 
ER BLAS Fi E-L » 


我 们 之 前 说 过 ， 套 接 字 的 各 种 实现 以 及 非 阻 塞 connect 会 带 来 移 
植 性 问题 。 首 先 ， 调 用 select 之 前 有 可 能 连接 已 经 建立 并 有 来 目 对 
端的 数据 到 达 。 这 种 情况 下 即使 套 接 字 上 不 发 生 错误 ， 套 接 字 也 是 既 
可 读 又 可 写 ， 这 和 连接 建立 失败 情况 下 套 接 字 的 读 写 条 件 一 样 。 图 16- 
11 中 的 代码 通过 调用 getsockopt 并 检查 套 接 字 上 是 否 存 在 待 处 理 错 
误 来 处 理 这 种 情形 。 


其 次 ， 既 然 我 们 不 能 假设 套 接 字 的 可 写 (而 不 可 读 ) 条 件 是 
select 返 回 套 接 字 操作 成 功 条 件 的 唯一 方法 ， 下 一 个 移植 性 问题 就 
是 怎样 判断 连接 建立 是 否 成 功 。 张 贴 到 Usenet 上 的 解决 办 法 各 式 各 
样 。 这 些 方法 可 以 取代 图 16-11 中 的 getsockopt 调 用 。 


(1) 调用 getpeername 代 替 getsockopt。 如 果 getpeername 
以 ENOTCONN 错 误 失败 返回 ， 那 么 连接 建立 已 经 失败 ， 我 们 必须 接着 
以 SO_ERROR 调 用 getsockopt 取 得 套 接 字 上 待 处 理 的 错误 。 


(2) 以 值 为 0 的 长 度 参数 调用 read。 如 果 read 失 败 ， 那 么 
connect 已 经 失败 ，read 返 回 的 errno 给 出 了 连接 失败 的 原因 。 如 
果 连 接 建 立成 功 ， 那 么 read 应 该 返回 0。 


(3) 再 调用 connect 一 次 。 它 应 该 失败 ， 如 果 错 误 是 EISCONN， 
那么 套 接 字 已 经 连接 ， 也 就 是 说 第 一 次 连接 已 经 成 功 。 


不 笠 的 是 ， 非 阻塞 connect 是 网 络 编程 中 最 不 易 移植 的 部 分 。 使 
用 该 技术 必须 准备 应 付 移植 性 问题 ， 特 别 是 对 于 较 老 的 实现 。 避 人 免 移 
oe 交 简 单 技术 是 为 每 个 连接 创建 一 个 处 理 线程 (第 26 
E e 


被 中 断 的 connect 


对 于 一 个 正常 的 阻塞 式 套 接 字 ， 如 果 其 上 的 connect 调 用 在 TCP 
三 路 握手 完成 前 被 中 断 ( 壁 如 说 捕获 了 某 个 信号 ) ， 将 会 发 生 什么 
We? 假设 被 中 断 的 connect 调 用 不 由 内 核 自 动 重启 ， 那 么 它 将 返回 
EINTR。 我 们 不 能 再 次 调用 connect 等 待 未 完成 的 连接 继续 完成 。 这 
样 做 将 导致 返回 EADDRINUSE 错 误 。 
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这 种 情形 下 我 们 只 能 调用 select， 就 像 本 节 对 于 非 阻塞 
connect 所 做 的 那样 。 连 接 建立 成 功 时 Select 返回 套 接 字 可 写 条 
件 ， 连 接 建立 失败 时 select 返 回 套 接 字 既 可 读 又 可 写 条 件 。 


16.5 d3EBHSEConnect: Web 客 户 程序 


非 阻塞 connect 的 现实 例子 出 自 Netscape 的 Web 客 户 程序 (TCPv3 
HJ13.4 B) 。 客 户 先 建立 一 个 与 某 个 Web 服 务 器 的 HTTP 连 接 ， 再 获取 
一 个 主页 (homepage) 。 该 主页 往往 含有 多 个 对 于 其 他 网 页 (Web 
page) 的 引用 。 客 户 可 以 使 用 非 阻 塞 connect 同 时 获取 多 个 网 页 ， 以 
此 取代 每 次 只 获取 一 个 网 页 的 串 行 获取 手段 。 图 16-12 展 示 了 一 个 并 行 
建立 多 个 连接 的 例子 。 最 左边 情形 表示 串 行 执行 所 有 3 个 连接 。 假 设 第 
ÁASICBERE RI LO HR B 第 二 个 耗 用 15 个 ， 第 三 个 耗 用 4 个 ， 总 计 
29 个 时 间 单 位 o 
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图 16-12 ”并 行 建立 多 个 连接 


中 间 情 形 并 行 执 行 2 个 连 ER o ^ 在 时 刻 0 局 动 前 2 个 连接 ， 当 其 中 之 一 
结束 时 ， 局 动 第 三 个 连 授 。 总 计 耗 时 差不多 减 六 ， 从 29 变 为 15， 不 过 
必须 意识 到 这 是 就 理想 情况 而 言 。 如 果 并 行 执行 的 连接 共享 同一 个 低 
速 链 路 〈 璧 如 说 客户 主机 通过 一 个 拨号 调制 解 调 器 链 路 接 入 因 特 
网 ) ， 那 么 每 个 连接 可 能 彼此 竞 用 有 限 的 资源 ， 使 得 每 个 连接 都 可 能 


耗 用 更 长 的 时 间 。 举 例 来 说 ，10 个 时 间 单 位 的 连接 可 能 变 为 15，15 个 
时 间 单 位 的 可 能 变 为 20，4 个 时 间 单 位 的 可 能 变 为 6。 即 便 如 此 ， 总 计 
耗 时 将 是 21， 仍 然 短 于 品行 执行 的 情形 。 


最 右边 情形 并 行 执行 所 有 3 个 连接 ， 其 中 再 次 假设 这 3 个 连接 之 间 
没有 干扰 〈 理 想 情况 ) 。 然 而 就 我 们 选择 的 例子 时 间 而 言 ， 本 情形 的 
总 计 耗 时 和 中 间 情 形 的 一 样 ， 都 是 15 个 时 间 单 位 。 

452 
在 处 理 Web 客 户 时 ， 第 一 个 连接 独立 执行 ， 来 目 该 连接 的 数据 合 


随后 用 于 访问 这 些 引 用 的 多 个 连接 则 并 行 执行 ， 如 图 16- 
13HTzm ° 


时 间 0 


25 
图 16-13 ”完成 第 一 个 连接 后 并 行 操 作 多 个 连接 
为 了 进一步 优化 连接 执行 序列 ， 客 户 可 以 在 第 一 个 连接 尚未 完成 
前 就 开始 分 析 从 中 陆续 返回 的 数据 ， 以 便 尽 早 得 悉 其 中 含有 的 引用 ， 
并 尽快 启动 相应 的 额外 连接 。 
既然 准备 同时 处 理 多 个 非 阻 塞 connect ， 我 们 就 不 能 使 用 图 16-11 


中 的 connect_nonb 画 数 ， 因 为 它 直到 连接 已 经 建立 才 返 回 。 我 们 必 
须 自 行 管理 这 些 (可 能 尚未 成 功 建立 的 ) 连接 。 


dift HE eZ E20 1-2 EL WebHR AS S8 CF e BAIT ER 
数 、 服 务 器 的 主机 名 以 及 要 从 服务 器 获取 的 每 个 文件 的 文件 名 都 会 作 
为 命令 行 参数 指定 。 执 行 本 程序 的 一 个 典型 例子 如 下 。 


solaris % web 3 www.foobar.com / image1.gif image2.gif \ 


image3.gif image4.gif image5.gif \ 
image6.gif image7.gif 


本 命令 行 参数 指定 并 行 执行 最 多 3 个 连接 、 服 务 顺 的 主机 名 、 主页 
的 文件 名 /是 服务 器 的 根 网 页 以 及 随后 读 入 的 7 个 文件 (本 例 中 都 
是 GIF 图 像 )。 这 7 个 文件 通常 在 指定 主页 中 引用 ， 现 实 的 Web 客 户 将 
读 取 指 定 主 页 并 通过 分 析 HTML 获 悉 这 些 文件 名 。 我 们 不 想 因 加 入 
nee es 于 是 直接 在 命令 行 上 指定 了 这 些 文 件 


这 个 例子 比较 长 ， 我 们 把 它 分 成 才干 个 部 分 给 出 。 图 16-14 是 每 个 
文件 都 包括 的 web .h 头 文件 。 


monbdlackAveb.h 


1 #incluie "urp.h" 


2 #3cEine MAXFILES 20 
3 &define SERV "an" /* port number or service name */ 


4 struct tile ( 


5 echar *f ues /* filename */ 

[3 (at ^T hast 2 /* hos name or TIPuv4/T?v5 a«ldress */ 
d int f fa: /* descriptor */ 

8 int t flags; /* F xxx below */ 

9 + file (MAXFILES] ; 


10 fdetine F_CONNECIING l /* ccnnect() in procrees */ 
11 #deEine T READINS 2 /* eccnnect() complete; now reading */ 
12 @define F DONE à /* all done */ 


13 $3ctine CET_CMD "CET *5 HTTIP/1.C XEM A EMO 
la /* globals */ 
15 int neonn, nfiles, nlefttoconn, nlefttoread, maxfd; 


16 fJ set rset, «set; 


17 /* function prototypes */ 

18 void home peqs[consc- char *, const char +); 
19 void s-a-t connectí[struct file *); 

20 void write jet omd(struct file +); 


mr kel fi 


[3 


图 16-14 ”web .h 头 文 伯 


Z53-^- 
454 
定义 file 结 构 


2-13 ”本 程序 最 多 读 MAXFILES 个 来 自 Web 服 务 器 的 文件 。 我 们 
维护 一 个 file 结 构 ， 其 中 包含 大 杆 每 个 文件 的 信息 : 文件 名 (复制 自 
命令 行 参数 ) 、 文 件 所 在 服务 器 主机 名 或 IP 地 址 、 用 于 读 取 文件 的 套 
TS uie 日 定 准备 对 文件 执行 什么 操作 〈 连 接 、 读 取 或 完 

J — Z 示 志 o 


定义 全 局 变量 和 画 数 原 型 
14-20 定义 全 局 变量 和 稍 后 讲解 的 各 个 函数 的 函数 原型 。 
图 16-15 给 出 了 程序 main 函 数 的 第 一 部 分 


acmblockweh.c 


1 #include "web. h" 
2 int 
3 main(int arqc, caer **arqv] 
4 1 
s int i, fd, n, wexneconn, flags, error; 
6 char out .MAXLINE]: 
7 fd set rs, ws; 
A f (EEC < 5) 
9 arr quití('usage: web -fconnss* -hostnans^ <homepage <filel> ..."); 
10 maxncorn = atoi;arqgv|1l,.): 
11 niles = min(argc - 4, MAXPILES); 
12 far (i = 0; i e nfiles: i++) ( 
l3 file[-].f name ~ arcv(i + 4); 
14 f£ile|-].E host = &ercv[2]; 
15 £:le[-].Ff flags = 0; 
16 ) 
17 printz("nzi-.o0 = td\n", nfileci; 
18 home pege(argv[2]1, argvi3l!; 
19 FD_7FRRD (Kr set) ; 
20 FD ZERO (éwset); 
21 maxfd = -1; 
22 nlefttoread = alef-toconn = nfiles; 
23 NOT = Cs 
acnitockweh.:i 


图 16-15 ”同时 connect 程 序 的 第 一 部 分 : SU EImainbjsZIT tba 


11-17 以 来 自命 令 行 参数 的 相关 信息 填写 file 结 构 数 组 。 
读 取 主页 
18 接着 给 出 的 home_page 函 数 创 建 一 个 TCP 连 接 ， 发 出 一 个 命 


令 到 服务 器 ， 然 后 读 取 主 页 。 这 征 第 一 个 连接 ， 需 在 我 们 开始 并 行 建 
立 多 个 连接 之 前 独 目 完成 。 


455 
初始 化 全 局 变量 


19~23 初始 化 两 个 描述 符 集 ， 一 个 用 于 读 一 个 用 于 写 。maxfd 
是 select 需 要 的 最 大 描述 符 (我 们 把 它 初始 化 成 -1， 因 为 描述 符 都 是 
非 负 的 ) ，nlefttoread 是 仍 符 读 取 的 文件 数 ( 当 它 到 达 0 时 程序 任 
ZER) ，n1lefttoconn 是 尚 无 TCP 连 接 的 文件 数 ，nconn 是 当前 打 
开 着 的 连接 数 〈 它 不 能 超过 第 一 个 命令 行 参数 ) 。 


图 16-16 给 出 了 main 函 数 一 开 始 就 调用 过 一 次 的 home_page 函 


T o 
nonblocE/.ome paze.c 
1 #include "web. t" 
2 void 
3 home_paqc [cons char *hoot, ccnzt char *f£n2m3j 
4 | 
s int fd, n; 
€ char line [MAXLINE) ; 
7 fd = Tcp connect (host, SERV); /* Blocking connect() */ 
8 n = snprintf(line, sizeotf(lins);, GET OD, fname); 
9 Wricen(f3. line, mn); 
Lo gay 4 2 9 | 
11 if | [n - Read(fd, line, MAXLINE); -- C) 
12 Dreak; /* server closed connection */ 
13 printf ("read $d bytes of home page*n", n); 
14 /* dc whatever with data */ 
15 j 
16 pr int?(t"enji-cf-file «an home paces b 
17 Close (få): 
18 ] 


nonblockhome page.c 


图 16-16 home page/EZk 


建立 与 服务 器 的 连接 


7 我 们 的 tcp_connect 会 建立 一 个 与 服务 器 的 连接 。 
发 送 HTTP 命 令 到 服务 器 ， 读 取 应 答 


8-17 ”发 出 一 个 HTTP GET 命 令 以 获取 主页 (文件 名 经 常 是 /) 。 
读 取 应 答 (我 们 不 对 应 答 做 任何 操作 ) ， 然 后 关闭 连接 。 
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图 16-17 中 给 出 的 函数 start_connect 发 起 非 阻 塞 connect 。 


- ronblock/start_connect.< 
1 #include "web.h" 


2 wid 

3 s-axt _ connect (struct file *fp-r! 

4] 

5 int f=, flags. n; 

6 struct addeinfe Sai; 

? ai - Host serv(fptr->f host, SERV, 0, SOCK STREAM); 

8 td = Socket (ai »ài family, ai »ai socktype, ai-sai srotocol); 

fotr-»f_fd = fd; 

10 print Ti"st arl conmmect for ta, fd &Nn*, fptr -3^ name, fd): 
IL /* Sat socket nonklocking */ 
12 flags = Fontlitd, F_GETFL, J); 
13 Fonzl(fd, P SBIPTL, fiaga | C_NONDLOCK); 
14 /* Tan:-iate nonblccking connec- to the server. */ 
15 i£ ( (n = comectifd, ai-sai_addr, ai-»ai adárlen)) < 0) [ 
16 it ;crrno !- BINPROCRESS) 
17 err_sysi"norblocking conrect error"). 
18 fpt r-»f flags = F_CONNECTING; 
iu ED Su-(fd, &rset); /* select for reading ard writing LI 
20 FD 8z^7(fd, &woet); 
22 if ‘fd > maxfd) 
22 naxfilm “rl: 
23 } else if (n >- 0) /* connect is already dona */ 
24 writa gez cmdifotr); /f* write!, tne GET command */ 
25 | 


nonblockStert conecte 


图 16-17 ”发 起 非 阻塞 connect 
创建 套 接 字 ， 设 置 为 非 阻 塞 


7~13 piu nig servi a (图 11-9) 查找 并 转换 主机 
名 和 服务 名 ， 它 返回 指向 某 个 addrinfo 结 构 数 组 的 一 个 指针 。 我 们 
只 使 用 其 [中 第 一 个 结 名。 创建 一 个 TCP 套 接 字 并 把 它 设置 为 非 阻塞 。 


发 起 非 阻塞 


14-22 发 起 非 阻 塞 connect， 并 把 相应 文件 的 标志 设置 为 
F_CONNECTING。 在 读 描 述 符 集 和 写 描述 符 集 中 对 应 的 位 打开 套 接 字 
描述 符 ， 因 为 select 将 等 待 其 中 任何 一 个 条 件 变 为 真 作为 连接 已 建 
立 完毕 的 指示 。 我 们 还 根据 需要 更 新 maxfd 的 值 。 


处 理 连 接 建 立 完成 情况 


23-24 ”如 果 connect 成 功 返 回 ， 那 么 连接 已 经 建立 ， 于 是 调用 
write_get_cmd 画 数 (接着 给 出 ) 发 送 一 个 命令 到 服务 器 。 
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我 们 为 connect 把 套 接 字 设置 为 非 阻塞 后 ， 不 再 把 它 重 置 为 默认 
的 阻塞 模式 。 这 么 做 没有 问题 ， 因 为 我 们 只 往 套 接 字 中 写 出 少量 的 数 
据 〈 下 一 个 函数 中 的 GET 命 令 ， 可 以 认为 它 比 套 接 字 发 送 缓冲 区 小 得 
Z) 。 即 使 write 因为 非 阻 塞 标志 造成 返回 一 个 不 足 计 数 (16.1 
T") ， 我 们 的 writen 画 数 (write 由 本 函数 间接 调用 ) 也 会 对 此 进 
行 处 理 。 矢 接 字 继续 处 于 非 阻塞 模式 对 于 后 续 的 read 也 没有 影 啊 ， 
为 我 们 总 是 在 调用 select 等 竺 套 接 字 变 为 可 读 后 才 调用 read 。 


图 16-18 给 出 了 write_get_cmd 函 数 ， 它 发 送 一 个 HTTP GET 命 
令 到 服务 器 。 


- Norbioct/ write get cnmd.c 


1 &incluce "web." 

2 void 

2 writc cct omd;ctruct tile *tpzr) 
4 1 

s int 


€ char line [MAXLINE: ; 

7 n = snprintf(line, sizeof (linzi, GET COND, fptr-»£ name!; 
E W-iten(fptr-»f fd, line, r}; 

9 prince? (*wrerts gd bytes for s\n", n, *prr-»f nans); 


10 tptr->t tlags = F READING; /* clears F CONNECTING */ 

11 FD SBT(fptr -f fd, &-set!; /* will read server's reply */ 
12 i= (fpt r-»f fd > mex ^d 

13 raxfd - fptr->f fà; 

14 ] 


nonbiock/write gor cnicl.c 


图 16-18 “发送 一 个 HTTP GET 命 令 到 服务 器 


构造 命令 并 发 送 
7-9 MiamCHS HEARS o 
设置 标志 


10-13 设置 相应 文件 的 F_READING 标 志 ， 它 同时 清除 
F_CONNECTING 标 志 (如 果 设 置 了 的 话 ) 。 该 标志 向 main 函 数 主 循 
环 指出 ， 本 描述 符 已 经 准备 好 提供 输入 。 在 读 描 述 符 集 中 打开 与 本 描 
述 符 对 应 的 位 ， 并 根据 需要 更 新 maxfd 。 


现在 回 到 图 16-19 给 出 的 main 函 数 主 循环 部 分 ， 它 紧 接 在 图 16-15 
之 后 。 这 是 程序 的 主 循环 : 只 要 还 有 文件 要 处 理 (nlefttoreadX 
Fo) ， 知 有 可 能 并 需要 的 话 就 启动 另 一 个 连接 ， 然 后 在 所 有 活跃 的 描 
述 符 上 使 用 select， 以 便 既 处 理 非 阻塞 连接 的 建立 ， 又 处 理 来 自 服 
务 絮 的 数据 。 


aonblochweb.c 


24 waile inlefttoread » 0! [ 

25 while (noom < maxnconn && nlefrrocorn > 0) { 

26 /* find a file to read */ 

27 for (i = 0 ; i < nfilss: i++) 

28 if (file[i)].f *lags == 4) 

29 brea; 

30 i= (i -- ntiles) 

31 err_quit ("nlefttoconn - $d but nothing found", nlefttcesnn); 
32 start connecti&filelll!; 

33 nconrne« ; 

34 nlsfttceona--; 

35 ) 

36 TR = raet; 

a7 we = wzet; 

38 n = Select (maxEd+1, &rs, Swa, NULL, NULL); 

39 for (i = 0; i e nfiles; iss) ( 

30 flags ~ file[1].* flacs; 

121 i= [flaqc -- 0 || flass & F DONE) 

42 continue; 

a3 fd = file{i).f fd; 

44 if (flags & F CONNECTING ui 

45 (FD ISSET;td, &xo) || FD ISSET!t3. &wc)]! ( 

46 n =- sizecf(error!; 

47 if (gersccknpr(fd, SOL SOCKET. SO_FRROR, &error, An) e N || 
ag error t= 0) { 

49 err_ret("nonblocking connect =silea for ks", 

50 fle [i] .£_name' ; 

51 } 

52 /* connection established */ 

E3 printf {"connectior. established for %e\n", File[i].f nans); 
E FD CLR(fd, &wset!; /* ro nore writeability test */ 
as write g- cmdisf:1e[:]); J^ write() the GET comen àf 
56 } else ££ (tlaqo & F READING && PD <ESzT(td, &ro)) { 

27 if { in - Read(fd, suf, sizeoZibut)!) -- 0) [ 

£8 printf ("end-of-file on isin", file[:].f name!; 

EE] Close | id); 

[1 tilc{i].t tlags = F DONZ; /* clears F READING */ 
61 FD CLR(fd, &rset!:; 

£2 neana- -; 

B3 nlefttoread--; 

B4 Y eise | 

£5 printf ("read %d bytes from %s\r", n. fileí(il.f name); 
£6 ) 

87 ) 

Eg } 

69 ] 

70 exiti2): 

71 } 


atida kwelin 


图 16-19 _ main 函数 的 主 循环 
可 能 的 话 发 起 另 一 个 连接 


24-35 ”如 果 没 有 到 达 最 大 并 行 连接 数 而 且 男 有 连接 需要 建立 ， 
那 就 找到 一 个 尚未 处 理 的 文件 (由 值 为 0 的 f_flags 指 示 ) ， 然 后 调 
用 start_connect 发 起 另 一 个 连接 。 活 跃 连 接 数 (nconn) 增 1, 1/5 
待 建立 连接 数 (nlefttoconn) 减 1。 
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select: 等 待 事件 发 生 


36-37 select 等 得 的 不 是 可 读 条 件 就 是 可 写 条 件 。 有 一 个 非 
阻塞 connect 正 在 进展 的 手 述 符 可 能 会 同时 开启 这 两 个 摘 述 符 集 ， 而 
HERE EEH TESS AYR E BR AS SS HA E TES R e A Sef lt 
符 集 9 


处 理 所 有 就 绪 的 描述 符 


39-55 人 裔 查 file 结 构 数 组 中 的 每 个 元 素 ， 人 确定 哪些 描述 符 需 要 
处 理 。 对 于 设置 了 F_CONNECTING 标 志 的 一 个 描述 符 ， 如 果 它 在 读 描 
述 符 集 或 写 描述 符 集中 对 应 的 位 已 打开 ， 那 么 非 阻塞 connect 已 经 完 
成 。 正 如 我 们 随 图 16-11 讲 述 的 那样 ， 我 们 调用 getsockopt 获 取 该 套 
接 字 的 竺 处 理 错误 。 如 果 该 值 为 0， 那 么 连接 已 经 成 功 建立 。 这 种 情况 
下 我 们 关闭 该 描述 符 在 写 描述 符 集 中 对 应 的 位 ， 然 后 调用 
write_get_cmd 发 送 HTTP 请 求 到 服务 器 。 


检查 描述 符 是 否 有 数据 


56-67 对 于 设置 了 F_READING 标 志 的 一 个 描述 符 ， 如 果 它 在 读 
描述 符 集 中 对 应 的 位 已 打开 ， 我 们 束 调 用 read。 如 果 相 应 连接 被 对 端 
关闭 ， 我 们 就 关闭 该 套 接 字 ， 并 设置 F_DONE 标 志 ， 然 后 关闭 该 描述 
符 在 读 描述 符 集中 对 应 的 位 ， 把 活动 连接 数 和 要 处 理 的 连接 总 数 都 减 
1 o 


在 本 例子 中 我 们 有 两 个 优化 措施 没有 执行 (以 避免 使 程序 更 为 复 
Fe) 。 首 先 ， 当 select 告 知已 经 就 绪 的 那么 多 描述 符 被 处 理 完 之 
后 ， 我 们 可 以 终止 图 16-19 中 select 之 后 的 for 循 环 。 其 次 ， 如 果 可 
能 的 话 我 们 可 以 减 小 maxfd 的 值 ， 省 得 select 检 查 那 些 不 再 设置 的 
描述 符 位 。 既 然 本 程序 任何 时 候 执行 处 理 的 描述 符 数 都 可 能 小 于 10 而 


不 是 成 二 上 万， 相 比 额外 造成 的 复 洒 性 ， 这 些 优化 措施 是 否 值得 添加 
令 人 怀疑 。 
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同时 连接 的 性 能 


同时 建立 多 个 连接 的 性 能 收益 如 何 呢 ? 图 16-20 给 出 了 获取 某 个 
Web 服 务 絮 的 主页 并 后 跟 来 自 该 服务 絮 的 9 个 图 像 文 件 所 需 的 时 钟 时 
间 。 到 该 服务 器 的 RTT 约 为 150 ms。 主 页 的 大 小 为 4017 字 节 ，9 个 图 像 
文件 的 平均 大 小 为 1621 字 节 。TCP 分 节 大 小 为 512 字 节 。 为 了 便于 比 
du COH eee 线程 的 一 个 版 本 的 这 


同时 连接 数 时 钟 时 间 ( 秒 )， 时 钟 时 间 ( 秒 )， 


] 
2 
3 
4 
3 
6 
7 
8 


be 


图 16-20 ”各 个 同时 连接 数 的 时 钟 时 间 


主要 的 性 能 改善 是 在 同时 连接 数 为 3 的 时 候 取得 的 时钟 时 间 减 
半 ) ， 同 时 连接 数 为 4 或 更 多 的 时 候 性 能 增长 要 少 得 多 。 


我 们 提供 这 个 使 用 同时 连接 的 例子 是 因为 它 是 一 个 使 用 非 阻塞 式 
IO 的 好 例子 ， 而 且 它 对 性 能 的 影响 可 以 测量 出 来 。 这 也 是 一 个 流行 的 
Web 应 用 程序 即 Netscape 浏 览 硕 使 用 的 特性 之 一 。 然 而 如 果 了 网络 中 存在 


拥塞 ， 这 个 技术 就 会 有 缺陷 。TCPv1 的 第 21 章 介绍 了 TCP 的 慢 启 动 和 
拥塞 避免 算法 的 细节 。 当 从 一 个 客户 到 一 个 服务 器 建立 多 个 连接 时 ， 
这 些 连 接 之 间 在 TCP 层 并 无 通信 。 也 就 是 说 ， 即 使 其 中 一 个 连接 遇 到 
分 组 丢失 ( 隐 式 指示 网 络 已 经 拥塞 ) ，IP 地 址 对 相同 的 其 他 连接 也 不 
会 得 到 通知 ， 这 种 情况 下 这 些 连 接 很 可 能 马上 遇 到 分 组 丢失 ， 除 非 它 
们 事先 得 到 通知 而 慢 下 来 。 这 些 额 外 的 连接 是 在 往 已 经 拥塞 的 网 络 中 
发 送 更 多 的 分 组 。 这 个 技术 还 会 增加 服务 器 主机 的 负荷 。 


16.6 dEBH3Eaccept 


我 们 在 第 6 章 中 陈述 过 ， 当 有 一 个 已 完成 的 连接 准备 好 被 accept 
时 ，select 将 作为 可 读 摘 述 符 返 回 该 连接 的 监听 套 接 字 。 因 此 ， 如 
林 我 们 使 用 select 在 某 个 监听 套 接 字 上 等 竺 一 个 外 来 连接 ， 那 惑 没 
有 必要 把 该 监听 套 接 字 设置 为 非 阻塞 ， 这 是 因为 如 果 select 告 诉 我 
们 该 套 搂 字 上 已 有 连接 束 绪 ， 那 么 随后 的 accept 调 用 不 应 该 阻塞 。 
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不 幸 的 是 ， 这 里 存在 一 个 可 能 让 我 们 掉 入 陷阱 的 定时 问题 
[Gierth 1996| 。 为 了 查看 这 个 问题 ， 我 们 首先 把 图 5-4 中 的 TCP 回 射 
ee eee 。 图 16-21 给 出 了 这 
l3 : 


nanblock/tcpeliül3.c 


* $include "ur.p.h" 

2 int 

3 maiad!in- argc, char **aregw; 
+4 

5 int sockfd; 

6 struct linger ling; 


etrucz sBockacdr in servaddr; 


8 iE (argc !- 2; 

9 e-r quit("usage: tcpcli <IPaddress>") ; 

10 scekfd = Socket (SF INET, SOCK STREAM, 0); 

li bzero(&servacdr. sizeof (seryaddr) ) ; 

12 servaddr.cin_tami.y = AP INET; 

13 servaddr.sin_port ~ AtonsiSERV_FORT), 

14 Ther. rt an(RF TNET, argy(1), &serveaddi -Sin adid* ): 

15 Ccnnect(sockfd, (SA *) &servaddr, sizeofiservacdr]); 

16 lin3.1 onotz = 1; /* cause RST to se sent on close{) */ 
17 ling.l linger = 9; 

18 Setsockop-(isockzá, SCL SOCKET, SO LINGER, éling, sizeofiling!):; 
19 Close(socktda) : 


20 exitii); 


nonblock/tepeli03.c 
图 16-21 建立 连接 并 发 送 一 个 RST 的 TCP 回 射 客 户 程序 
设置 SO_LINGER 套 接 字 选项 


16-19 一旦 连接 建立 ， 我 们 设置 SO_LINGER 套 接 字 选项 ， 把 
1_onoff 标 志 设 置 为 1， 把 1 .1inger 时 间 设 置 为 0。 正 如 7.5 节 所 述 ， 
这 样 的 设置 导致 连接 被 关闭 时 在 TCP 套 接 字 上 发 送 一 个 RST。 我 们 随 
后 关闭 该 套 接 字 。 

我 们 接着 修改 图 6-21 和 6.22 中 的 TCP 回 射 服务 器 程序 ， 在 select 


返回 监听 套 接 字 的 可 读 条 件 之 后 但 在 调用 accept 之 前 暂 仓 。 在 下 面 
这 段 来 目 图 6-22 开 头 的 代码 中 ， 以 加 号 打头 的 那 两 行 是 痢 加 的 。 


if (FD_ISSET(listenfd, &rset)) { /* new client 
connection */ 
十 printf("listening socket readable\n"); 


+ sleep(5); 
clilen = sizeof(cliaddr); 
connfd = Accept(listenfd, (SA *) &cliaddr, &clilen); 


x ESL TAIL Rar, "EJCIATESelectiklul s 
WERE ta am EUHaccpet ° iM TROL P HRS SSH UIX 
种 迟钝 不 成 问题 《实际 上 这 就 是 要 维护 一 个 已 完成 连接 队列 的 原 
但 是 结合 上 连接 建立 之 后 到 达 的 来 目 客 户 的 RST， 问 题 束 出 现 
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我 们 在 5.11 节 指出 ， 当 客户 在 服务 姻 调 用 accept 之 前 中 止 某 个 连 
接 时 ， 源 目 Berkeley 的 实现 不 把 这 个 中 止 的 连接 返回 给 服务 颖 ， 而 其 
他 实现 应 该 返回 ECONNABORTED 错 误 ， 却 往往 代 之 以 返回 EPROTO 错 
误 。 考 虑 一 个 源 自 Berkeley 的 实现 上 的 如 下 例子 。 


。 客户 如 图 16-21 所 示 建 立 一 个 连接 并 随后 中 止 它 。 

。 Select 问 服务 器 进程 返回 可 读 条 件 ， 不 过 服务 器 要 过 一 人 小段 时 
间 才 调用 accept 。 

。 在 服务 器 从 select 返 回 到 调用 accept 期 间 ， 服 务 器 TCP 收 到 来 
自 客户 的 RST。 

e 这 个 已 完成 的 连接 被 服务 器 了 TCP 驱除 出 队列 ， 我 们 假设 队列 中 没 
有 其 他 已 完成 的 连接 。 

。 服务 强调 用 accept， 但 是 由 于 没有 任何 已 完成 的 连接 ， 服 务 楷 
于 是 阻塞 。 


服务 器 会 一 直 阻塞 在 accept 调 用 上 ， 直 到 其 他 某 个 客户 建立 一 
个 连接 为 止 。 但 是 在 此 期 间 ， 就 以 图 6-22 给 出 的 服务 右 程 序 为 例 ， 服 
务 器 单纯 阻 塞 在 accept 调 用 上 ， 无 法 处 理 任何 其 他 已 束 绪 的 描述 伯 。 


本 问题 和 6.8 节 讲述 的 拒绝 服务 攻击 多 少 有 些 类 似 ， 不 过 对 于 这 个 
新 的 缺陷 ， 一 旦 男 有 客户 建立 一 个 连接 ， 服 务 器 就 会 脱出 阻塞 中 的 
accept ° 


本 问题 的 解决 办 法 如 下 。 


(1) 当 使 用 select 获 悉 某 个 监听 套 接 字 上 何 时 有 已 完成 连接 准备 
好 被 accept 时 ， 总 是 把 这 个 监听 套 接 字 设 置 为 非 阻 塞 。 


(2) 在 后 续 的 accept 调 用 中 忽略 以 下 错误 : EWOULDBLOCK ( 源 
自 Berkeley 的 实现 ， 客 户 中 止 连接 时 ) 、ECONNABORTED (POSIX 
实现 ， 客 户 中 止 连接 时 ) 、EPROTO (SVR4 实 现 ， 客 户 中 止 连接 时 ) 
和 EINTR (如 果 有 信号 被 捕获 ) 。 


16.7 小 结 


16.2 节 给 出 的 非 阻塞 读 与 写 的 例子 取 自 5.5 节 和 6.4 节 调用 str_c11 
函数 的 回 射 客户 程序 ， 改 写成 在 客户 与 服务 器 的 TCP 连 接 上 使 用 非 阻 
塞 式 1JO。select 通 常 结合 非 阻塞 式 IO 一 起 使 用 ， 以 便 判 断 描 述 符 何 
时 可 读 或 可 写 。 这 个 版 本 的 客户 程序 是 我 们 给 出 的 所 有 版 本 中 执行 速 
度 最 快 的 ， 尽 管 其 代码 修改 确 非 易 事 。 在 这 之 后 我 们 展示 说 明 使 用 
fork 把 客户 程序 划分 成 两 部 分 由 不 同 进程 分 别 执行 要 位 单 得 多 ， 我 们 
将 在 图 26-2 中 改 用 线程 应 用 同样 的 技术 。 
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非 阻塞 connect 使 我 们 能 够 在 TCP 三 路 握手 发 生 期 间 做 其 他 处 
理 ， 而 不 是 光 阻 塞 在 connect 上 。 不 入 的 是 ， 非 阳 塞 connect 不 可 移 
植 ， 不 同 的 实现 有 不 同 的 手段 指示 连接 已 成 功 建立 或 已 倍 到 错误 。 我 
们 使 用 非 阻塞 connect 开 发 了 一 个 新 型 客户 程序 ， 它 类 似 同时 打开 多 
个 TCP 连 接 以 减少 从 单个 服务 恬 取 得 多 个 文件 所 需 时 钟 时 间 的 Web 客 
户 程序 。 如 此 发 起 多 个 连接 可 以 减少 时 钟 时 间 ， 不 过 考虑 到 TCP 的 拥 
塞 避免 机 制 ， 它 是 对 网 络 不 利 的 。 


习题 


161 在 关于 图 16-10 的 讨论 中 我 们 提 到 过 ， 父 进程 必须 调用 
shutdown 而 不 是 close。 这 是 为 什么 ? 


16.2 ”在 图 16-10 中 ， 如 有 果 服 务 器 进程 过 早 终止 ， 而 客户 于 进程 收 
到 来 目 服务 器 的 EOF 后 不 通知 父 进程 束 终 止 ， 将 会 发 生 什么 ? 


16.3 ”在 图 16-10 中 ， 如 果 父 进程 在 子 进程 之 前 意外 死亡 ， 而 子 进 
程 随后 从 套 接 字 读 到 EOF， 将 会 发 生 什 么 ? 


164 在 图 16-11 中 如 果 删 掉 以 下 两 行将 会 发 生 什 么 ? 


if (n == 0) 
goto done; /* connect completed immediately */ 


16.5 ”我 们 在 16.3 市 说 过 ， 来 自 对 端的 数据 有 可 能 在 本 端的 
connect 调 用 返回 前 到 达 套 接 字 。 这 是 如 何 发 生 的 ? 
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Q@Stevens 先 生 显 然 在 6.7 节 遗漏 了 所 壕 内 容 。 本 书 第 2 版 6.7 广 和 第 3 版 
6.7 厄 的 内 容 是 一 致 的 。 一 一 译 者 注 


第 17 章 ioct1 操 作 


17.1 ”概述 


ioct1 函 数 传统 上 一 直 作 为 那些 不 适合 归 入 其 他 精细 定义 类 别 的 
特性 的 系统 接口 。POSIX 致 力 于 摆脱 处 于 标准 化 过 程 中 的 特定 功能 的 
ioct1 接 口 ， 办 法 是 为 它们 创造 一 些 特殊 的 函数 以 取代 ioct1 请 求 。 
举例 来 涪 ，Unix 终 端 接口 传统 上 使 用 ioct1 访 问 ， 然 而 POSIX 为 终端 
创造 了 12 个 新 函数 : tcgetattr 用 于 获取 终端 属性 ，tcflLush 用 于 
冲刷 待 处 理 输入 或 输出 ， 等 等 。 类 伏地 ，POSIX 替 换 了 一 个 用 于 网 络 
的 ioct1 请 求 : #AsockatmarkHax (24.3 节 ) 取代 SIOCATMARK 
ioct1。 尽 管 如 此 ， 为 与 网 络 编程 相关 且 依 赖 于 实现 的 特性 保留 的 
ioct1 请 求 为 数 依然 不 少 ， 它 们 用 于 获取 接口 信息 、 访 问 路 由 表 、 访 
问 ARP 高 速 缓存 ， 等 等 。 


本 章 给 出 与 网 络 编程 相关 的 ijoct1 请 求 的 概貌 ， 其 中 有 许多 依赖 
于 具体 的 实现 。 此 外 ， 包 括 源 自 4.4BSD 的 系统 和 Solairs 2.6 及 以 后 版 本 
在 内 的 一 些 实现 改 用 AF_ROUTE 域 套 接 字 (路 由 套 接 字 ) 来 完成 其 中 
许多 操作 。 我 们 将 在 第 18 章 讨论 路 由 套 接 字 。 


网 络 程序 (特别 是 服务 右 程 序 ， 经常 在 程序 局 动 执 行 后 使 用 
ioct1 获 取 所 在 主机 全 部 网 络 接口 的 信息 ， 包 括 : 接口 地 址 、 是 否 支 
持 广 播 、 是 否 文 持 多 播 ， 等 等 。 我 们 将 自行 开发 用 于 返回 这 些 信息 的 
函数 ， 在 本 章 提供 一 个 使 用 ioct1 的 实现 ， 在 第 18 章 再 提供 一 个 使 用 
路 由 套 接 字 的 实现 。 
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17.2 ioct 1H 
BUI afa e | FR — IT HE ME - 


Zinclude «unistd.h» 


int ioctl(int fd, int request, ... /* void *arg */ ); 


返回 : ERIA 


09， 若 出 错 则 为 -1 


其 中 第 三 个 参数 总 是 一 个 指针 ， 但 指针 的 类 型 依赖 于 request 参 


4.4BSD 把 第 三 个 参数 定义 为 unsigned long 而 不 是 int， 不 过 
这 不 成 问题 ， 因 为 用 作 这 个 参数 的 常 值 由 头 文件 定义 。 只 要 原型 在 范 
HA 〈 例 如 使 用 ioct1 的 程序 包含 了 <unistd.h> 头 文件 ) ， 那 么 系 
统 使 用 的 就 是 正确 的 类 型 。 


一 些 实现 把 第 三 个 参数 指定 为 void * 指 针 而 不 是 ANSI C 省 略 号 
Iie ° 


me Mioctl Ha CIS BME, K APOSIXRI E ETT 
标准 化 。 许 多 系统 如 上 所 示 地 在 <unistd.h> 中 定义 它 ， 不 过 传统 的 
BSD 系 统 在 <sys/ioct1l1.h> 中 定义 它 。 


我 们 可 以 把 和 网 络 相 关 的 请 求 (request) 划分 为 6 类 : 


(EE IE: 

。 文件 操作 | 

。 接口 操作 ; 

© ARP È ERIT ENE; 

。 路 由 表 操 作 ; 

。 流 系统 〈 见 第 31 章 ) 。 


回顾 图 7-20， 我 们 知道 不 但 某 些 ioct1 操 作 和 某 些 fcnt1 操 作 功 
ee 《譬如 把 套 接 字 设置 为 非 阻塞 ) ， 而 且 某 些 操 作 可 以 使 用 


ioct1 以 不 止 一 种 方式 指定 〈 辟 如 设置 套 接 字 的 进程 组 属 主 ) 。 


图 17-1 列 出 了 网 络 相关 ioct1 请 求 的 request 参 数 及 arg 地 址 必须 指 
向 的 数据 类 型 。 以 下 各 节 详细 讲解 这 些 请 求 。 


STOCHIMARK 是 否 位 于 带 外 标记 
CS 设置 套 接 罕 的 进程 囊 或 进程 组 
STOOGPGRP TR tee try ID REAR FA ID 
FISMBIO VERUM ER ALLS NOE E 
ia cumin V ERIRE SG Seb VOS 
a 获取 接收 绥 溃 区 中 的 等 节 数 
FIOSETOWN 设置 文件 的 进程 ID 或 进程 组 ID 
saciid 获 到 文件 的 进 弄 ID 或 进程 组 ID 
SIOCGIFCONF 获取 所 有 接口 的 列 去 struct ifconf 
SLOCSLFADDR BE CL LH E struct ifrcq 
SIOCGIFADDR 获取 接口 地 址 struct ifreg 
SIOCSIFFLAGS 设置 接口 标志 struct itreq 
SIOCGIFFLASS 状 取 接口 标志 struct ifreq 
SIOCSIFDSTADDR 设置 点 到 点 地 址 struct ifreg 
SIOCGIFDSTADDR 获取 点 天 点 地 址 struct ifreq 
STOOGIFSRDADDR 获取 广播 地 址 struct ifreq 
SIOCSIFSRDADDR 设置 广播 地 址 struct ifreq 
STOCGTFNETMASK 获取 子 网 捧 码 struct ifreq 
SIOCSIFNETMASK PA SEY struct ifreg 
STOCGTFMETRIC 33 Be p (rp HE struct ifreq 
SIOCSIFMETRIC i y die 1 ang au HE struct ifreq 
a od 获取 接口 MTU struct ifreq 
STOCK 《还 有 很 多 ， 取 决 于 实现 ) struct ifred 
甸 建 /修改 ARP 考 项 struct arpredq 
FEA ARP H tii struct arpreq 
型 除 ARP 去 项 struct arpreg 
路 由 SIOCADDAT 描 吉 路 径 struct rteztry 
Gesell SIOCDELST Hi RR struct ztentry 


《参见 31.5 节 ) 


图 17-1 网络 相关 ioct1 请 求 的 总 结 


17.3” 套 接 字 操作 


明确 用 于 套 接 字 的 ijoct1 请 求 有 3 个 (TCPv238551—553J1) ° © 
们 都 要 求 ioct1 的 第 三 个 参数 是 指向 某 个 整数 的 一 个 指针 。 


SIOCATMARK ”如果 本 套 接 字 的 读 指针 当前 位 于 读 外 标记 ， 那 束 
通过 由 第 三 个 参数 指向 的 整数 返回 一 个 非 0 值 ， 否 则 返回 一 个 0 值 。 我 
们 将 在 第 24 章 详细 讲解 带 外 数据 。POSIX 以 函数 sockatmark 替 换 本 
请 求 ， 我 们 将 在 24.3 克 给 出 这 个 新 函数 使 用 ioct1 的 一 个 实现 。 
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SIOCGPGRP JEn BELT ASUBINES SOROR ASRS Ne 
ID 或 进程 组 ID， 该 ID 指定 针对 本 套 接 字 的 SIGI0 或 SIGURG 信 号 的 接 
收 进程 。 本 请 求 和 fcnt1 的 F_GETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 
标准 化 的 是 fcnt1 操 作 。 


SIOCSPGRP 把 本 套 接 字 的 进程 ID 或 进程 组 ID 设置 成 由 第 三 个 参 
数 指 癌 的 整数 ， 该 DD 指定 针对 本 人 套 接 字 的 SIGIO 或 SIGURG 信 和 号 的 接 
收 进程 。 本 请 求 和 fcnt1 的 F_SETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 
标准 化 的 是 fcnt1 操 作 。 


17.4 ”文件 操作 


一 组 请 求 以 FIO 打 头 ， 它 们 可 能 还 适用 于 除 套 接 字 外 某 些 特定 
类 型 的 文件 。 本 节 仅 仅 讨论 适用 于 套 接 字 的 请 求 (TCPv2 第 553 页 ) 
以 下 5 个 请 求 都 要 求 ioct1 的 第 三 个 参数 指向 一 个 整数 。 


FIONBIO 根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ,可 清除 
或 设置 本 套 接 字 的 非 阻 塞 式 IO 标志 。 本 请 求 和 0_NONBLOCK 文 件 状 态 
标志 等 效 ， 而 可 以 通过 fcnt1 的 F_SETFL 命 令 清 除 或 设置 该 标志 。 


FIOASYNC 根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ， 可 
清除 或 设置 针对 本 套 接 字 的 言 号 驱动 异步 WO 标志 ， 它 决定 是 否 收取 针 
对 本 套 接 字 的 异步 /0 信号 (SIGIO) 。 本 请 求 和 0_ ASYNC 文 件 状态 标 
志 等 效 ， 而 可 以 通过 Se Es SETFL 命 令 清 除 或 设置 该 标志 。 


FIONREAD 通过 由 ioct1 的 第 三 个 参数 指向 的 整数 返回 当前 在 
本 套 接 字 接 收 缓冲 区 中 的 字 季 数 。 本 特性 同样 适用 于 文件 、 管 道 和 终 
端 。 我 们 已 在 14.7 节 讨论 过 本 请 求 。 


FIOSETOWN 对 于 套 接 字 和 SIOCSPGRP 等 效 。 


4m dm 


FIOGETOWN 对 于 套 接 字 和 SIOCGPGRP 等 效 。 


175 “接口 配置 


需 处 理 网 络 接口 的 许多 程序 沿用 的 初始 步骤 之 一 束 是 从 内 核 获取 
配置 在 系统 中 的 所 有 接口 。 本 任务 由 SIOCGIFCONF 请 求 完成 ， 它 使 
用 ifconf 结 构 ，ifconf 又 使 用 ifreq 结 构 ， 图 17-2 给 出 了 这 两 个 结 


构 的 定义 。 


«nei h» 
struct ifcouf [ 
lint ifc len; /* size of zuffer, value-resulc */ 
union { 
caddz t ifcu buf; /* input fron user -> kernel */ 
struct ifreg *ifcu req; /* return from kexnel -> user */ 
) ifc ifeu: 
jj 
#define ifc_buf ifc ifcu.ifcu bu: /* buffer address */ 
Hdl fine ifr rej ifr: ifcu.ifeu raeg /* array of stroctures returred kJ 
tidsfina IFNAMSIZ 16 
ctruct itreq { 
char ifx_nanelIPNAMSIZ1; /* interface nawe, e.g., "lec" */ 
imion ( 
struct sockaddr ifru_addr; 
struct sockaddr itru dstaddr: 
struct sockaddr ifru_broadaddr; 
Smrl ifru_flags; 
int ifru metric; 
caddr t ifru data; 
} ifr ifru 
iy, 
&dsfins ifr addr ifr ifru.ifru add /* adirass */ 
#dsfine ifr dstedzr ifx_ifru.ifru_dstadsr  /* ctkher end of p-to-p .in« */ 
#dsfine ifr broedaddr ifr ifru.ifru broadaddr /* broadcas- address */ 
#dzfine ifr flags ifr ifru.ifru flags /* flags 4/ 
tdsfine ifr metric ifr ífru.ifru metric /* metric */ 
#dcfine ifr_deta ifr ifru.ifru dzta /* for ses by interfzcs */ 
c neif.h 


图 17-2 ”用 于 接口 类 各 个 ijoctl1 请 求 的 jfconf 结 构 和 ifreq 结 构 


在 调用 ioct1 前 我 们 先 分 配 一 个 缓冲 区 和 一 个 ifconf 结 构 ， 然 
后 初始 化 后 者 。 图 17-3 展 示 了 这 个 ifconf 结 构 的 初始 化 结果 ， 其 中 假设 
缓冲 区 的 大 小 为 1024 字 节 。ioct1 的 第 三 个 参数 指向 这 样 的 ifconf 


结构 。 


itcont{} 
ifc len 


Au 


图 17-3 ”SIOCGIFCONF 前 ifconf 结 构 的 初始 化 结 9 


假设 内 核 返 回 2 个 ifreq 结 构 ， 在 ioct1 返 回 时 通过 同一 个 
ifconf 结 构 所 返回 的 值 如 图 17-4 所 示 。 阴影 区 域 为 被 ioct1 修 改过 的 
部 分 。 缓 冲 区 中 填 入 了 那 2 个 ifreq 结 构 ，ifconf 结 构 的 ifc_len 成 
员 也 被 更 新 ， 以 反映 存放 在 缓冲 区 中 的 信息 量 。 本 图 假设 每 个 ifred 
结构 占用 32 个 字 节 。 


ifconf(] 


ifc name[] 


ifreq{} 


fep Wh HL £53 


ifc name [] 


ifreq{} 
套 接 字 地 址 结构 


图 17-4 SIOCGIFCONF 返 回 的 值 


指向 某 个 ifreq 结 构 的 指针 也 用 作 图 17-1 所 示 接 口 类 其 余 ioct1 
请 求 的 一 个 参数 ， 对 此 我 们 将 在 17.7 节 继续 讲解 。 注 意 ifreq 结 构 中 
含有 一 个 联合 ， 而 众多 #define 隐 藏 了 这 些 字段 实际 上 是 该 联合 的 成 
员 这 一 事实 。 对 于 该 联合 某 个 成 员 的 所 有 引用 都 使 用 如 此 定义 的 名 
E 。 注意 有 些 系 统 往 这 个 ifr_ifru 联 合 中 增添 了 许多 依赖 于 实现 的 
bis 


Hn 


17.6 get_ifi_infowR 


既然 很 多 程序 需 知 道 系统 中 的 所 有 接口 ， 我 们 于 是 开发 一 个 名 为 
get ifi info 的 函数 ， 它 返回 一 个 结构 链表 ， 其 中 每 个 结构 对 应 一 
个 当前 处 于 “up” (在 工 ) 状态 的 接口 。 我 们 在 本 节 使 用 SIOCGIFCONF 
ee 在 第 18 章 中 将 开发 一 个 使 用 路 由 套 接 字 的 版 


FreeBSD 提 供 了 一 个 实现 类 似 功能 的 名 为 getifaddrs 的 函数 。 


搜索 FreeBSD 4.8 的 整个 源 代 码 树 发 现 有 12 个 程序 发 出 
SIOCGIFCONF ioct1 请 求 以 确定 存在 的 接口 。 


470 
我 们 首先 在 一 个 名 为 unpifi.h 的 新 头 文件 中 定义 ifi_info 结 
构 ， 如 图 17-5 所 示 。 


libitinpifi.h 
1 /* Cur own header for che program: chat need interface configuration info. 
Include this file, instead of “unp.h". */ 


4 
了 fitndcti unp ifi a 
4 #define — unp ifi à 


§ include "ur p.h" 

6 finclude «nsc/if.n» 

7 #ackine IFi NAME i6 /* game ac IFNAMSIZ in «net/ir.h» */ 

6 #define IFI LAZDR 8 /* allow for C4-bit BUI-c4 ir future */ 
9 struct ifi inf ( 

10 char ifi nare[-31 NANE];  /* interface rare, null-terminatsd */ 
11 enort ifi_index; /* interface index */ 

12 short ifi mtu; /* interface MTU */ 

13 u_char ifi_taJdr [TFT HADOR] , f^ ha-twarm address */ 

14 u short ifi hian; /* f bytes in hardware address: C, 6, 8 */ 
15 short ifi £l2qd2; /* 17P xxx conctanto Erom <nct/if.a> */ 
16 short ifi myflags; /* cr ow. TFT xxx flags */ 


17  s-ruc- sockaddr  *ifi addr:  /* primary edéress */ 
189 struct sockaddr Yifi brdadar;  /* broadcast address */ 
19 struct sockaddr ‘*ifi_dsteadcr;  /* destination address */ 


20 scrim: tfi_infa ifi next; /* next. af these structures 4/ 
121-3 
22 $define IFI ALIAS 1 /* ifi adir is an alias */ 


23 /* function prototypes */ 
24 etruct ifi_inte *qst_:fi_infolint, int); 
25 struct ifi_into *Get ifi infolint, int); 
26 void free if- infol(struct ifi info *!; 


2? endif /*  unp iEi h */ 
übunpifi.t 


图 17-5 unpifi.h 头 文件 


9-21 我 们 的 函数 返回 一 个 本 结构 的 链表 ， 其 中 每 个 结构 的 
ifi_next 成 员 指 向 下 一 个 结构 。 我 们 在 本 结构 中 返回 了 典型 的 应 用 
程序 可 能 关注 的 信息 : 接口 名 字 、 接 口 索 引 、MTU、 硬 件 地 址 ( 壁 如 
以 太 网 地 址 ) 、 接 口 标志 (以 便 应 用 程序 判断 接口 是 否 支 持 广播 或 多 
播 ， 或 是 一 个 点 到 点 接口 ) 、 接 口 地 址 、 广 播 地 址 、 点 到 点 链 路 的 目 
的 地 址 。 用 于 存放 ifi_info 结 构 和 其 中 所 含 套 接 字 地 址 结构 的 内 存 

空间 都 是 动态 获取 的 。 我 们 于 是 还 提供 一 个 名 为 free_ifi_ info 的 
函数 以 释放 所 有 动态 获取 的 内 存 空间 。 


在 给 出 get_ifi_info 函 数 的 实现 之 前 ， 我 们 先 给 出 一 个 调用 该 
函数 并 随后 输出 所 有 信息 的 简单 程序 。 该 程序 是 ifconfig 程 序 的 一 
个 微型 版 本 ， 如 图 17-6 所 示 。 


1 #includs "urpifi.h" 


2 int 


3 mainiint argc, char **arew! 


30 
31 


re a ee Se t st Gi s 6I 65 6i 
Ww uw ob mcd o evn mn owe ue fl 


ADA 
- om d 


48 
43 
so } 


struct ifi info *i-i, *ifihead; 
struct sockaddr “sa, 

u_char *ptr: 

irt i, family, doaliases; 


if (arce l- 3) 
err_quit ("usace; prifinfo «inset4|iretó» «32oanliasss-"); 


if (strcmpiargv[i], "ineta") == 0) 
femily = AP_INET; 

else if (stzcmp(argv[-], "“ineré') == 0) 
family = AP_INET6; 

else 
err_quit ("invalid «address-family-":; 

doaliases = atoi (argu [2]); 


for (ifikesd - ifi - Get_ifi_infoifamily, doaliases! ; 
ifi |= NULL; ifi = ifi->ifi_next] [ 
prinzf(*$5; ", ifi »i-i namc; 
if (ifi-sifi index != 9) 
printf;";àd) ", i=i->ifi_index) ; 
printf ("e"); 


if (ifi--ifi_flags & ITT UP) printti"UP '|; 

if (ifi-sifi flags & IFF BROADCAST) printf/"BCAST "); 
at (ifi-»ifi 上 QOS & IFF_MULTICAS7) crintt;"MZAST "); 
if (ifi-nifi_flags & IFF -OOPBACK] grintf "LOP "); 


at ‘iti >ifi kiags & IFP SOINTOPO-NT) srintft("P2P "); 
prinzf(*5Xn") ; 


if i ii = Gfi-+ifi_hlen) > Ci [ 
ptr = ifi-»ifi haddr; 
do | 
printf ("tstx", (i == ifi->ifi_ hlen) ? " " : ":" 


} while [--i > 0); 
printé("\n*); 


if (ifi-s3ifi wth !z 4) 
zrintf;" MIU ta\n", ifi-»ifi mtu); 


if ( {sa = ifi-»ifi add-) != NULL) 


ined prifinfic 


*ptr++); 


rintt" IP addr: to\n", Sock_ntop_host (sa, clsect(*ca))); 


if i isa = ifi->ifi_brdaddr) != NULL) 
zrintt;" broadcast addr: ton", 
Sock ntcp host (asa, Rizenfitsa)}j; 
if į {ša = ifi->ifi_dstaddr) I= NULL) 
printfi" destination addr: s\n", 
sock_ntcp_host(ea, eiazeotí*83,)!; 
i 
free if. info(:fihead); 
exit (0! : 


图 17-6 调用 get_ifi _info 画 数 的 prifinfo 程 序 


incilprifinfo.c 


18-47 本 程序 是 一 个 for 循 环 ， 调 用 get_ifi_info 一 次 后 所 


历 所 返回 的 所 有 ifi_info 结 构 。 


20-36 GDRRON GS» BSA ° WREEK EK 
0， 那 就 将 其 显示 为 十 六 进 制 数 的 形式 。 ORTE EEHEHE, 
get ifi info/Zok[BJifi hlenf& O0 °) 

37-46 ”如 果 返 回 的话 ， 显 示 MTU 和 那 3 个 IP 地 址 。 


如 果 在 主机 macosx (图 1-16) 上 执行 这 个 程序 ， 我 们 得 到 如 下 和 输 


出 


macosx % prifinfo inet4 0 
100: «UP MCAST LOOP > 


MTU: 16384 
IP addr: 127.0.0.1 


eni: «UP BCAST MCAST » 
MTU: 1500 
IP addr: 172.24.37.78 
broadcast addr: 172.24.37.95 


第 一 个 命令 行 参数 inet4 指 定 IPv4 地 址 ， 第 二 个 命令 行 参 数 0 指定 
不 返回 地 址 别名 (我 们 将 在 A.4 节 讲解 IP 地 址 别名 ) 。 注 意 在 MacOS X 
系统 上 ， 使 用 这 种 方法 无 法 得 到 以 太 网 接口 的 硬件 地 址 。 


如 果 给 以 太 网 接口 (ent) 增设 3 个 别名 地 址 《它们 的 主机 ID 分 别 
eye ， 并 且 把 第 二 个 命令 行 参数 改 为 1， 我 们 会 得 到 以 下 结 


maxosx % prifinfo inet4 1 
100: «UP MCAST LOOP > 
MTU: 16384 
IP addr: 127.0.0.1 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.78 主 IP 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.79 第 一 个 别名 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.80 第 二 个 别名 地 址 
broadcast addr: 172.24.37.95 
eni: «UP BCAST MCAST > 


MTU: 1500 
IP addr: 172.24.37.81 第 三 个 别名 地 址 
broadcast addr: 172.24.37.95 


如 果 在 FreeBSD 系 统 上 运行 同样 的 程序 ， 不 过 使 用 图 18-16 中 的 
get_ifi_info 实 现 (使 用 这 个 实现 可 以 很 容易 地 获取 硬件 地 址 ) ， 
我 们 得 到 以 下 结果 。 


471~ 
473 
freebsd4 % prifinfo inet4 1 
de0: «UP BCAST MCAST > 
0:80:c8:2b:d9:28 
IP addr: 135.197.17.100 
broadcast addr: 135.197.17.255 
dei: <UP BCAST MCAST > 
0:40:5:42:d6:de 
IP addr: 172.24.37.94 主 IP 地 址 


broadcast addr: 172.24.37.95 
dei: <UP BCAST MCAST > 

0:40:5:42:d6:de 

IP addr: 172.24.37.93 

broadcast addr: 172.24.37.93 
100: «UP MCAST LOOP > 

IP addr: 127.0.0.1 


在 本 例 中 我 们 指示 程序 输出 别名 地 址 ， 结 果 发 现 第 二 个 以 太 网 接 
O (det) 定义 了 一 个 主机 ID 为 93 的 别名 。 


下 面 给 出 使 用 SIOCGIFCONF ioctl3:Jfjget ifi infoEW 
数 。 图 17-7 给 出 第 一 部 分 ， 它 从 内 核 获取 接口 配置 。 


lik/get_ift_infa.c 


1 &incluce "uupifi.h" 


2 struct iÉ- info * 
i get iti into(int familv, int doaliasco) 


*cptr, 


bu 


c) 


/* increment 


4 | 

5 struct Eas nfe *ifi, *i^ihgead, *kifipmext 

é int sockfd, len, lastlen, flags, myflacs, 
7 char "ptr, *buř, lastname |IPMAMSIZ), 

E struct :fccnf ifc; 

e struct frer sifr, if-copy; 

10 struct soctackir in *s LDPpIIr; 

11 struct socxaddr inc *sinéptr; 

12 suckfd = Sccket ‘AF_INET, SOCK_DGRAN, 0); 

13 Jastlern = 3; 

14 len ~ 10C * gizeot(struct itfrsq!; /* initial 
15 for 4 gp 4 

1€ suf = Mallocí(ler!; 

157 if-.ifc len = lan; 

16 ife.it¢ buf = buf; 

19 if !ioctlisockzi, SIOCGIFCONF. Gifs! < 0) [ 
20 if (errno ! s R7NVAT, |] last]en !a 

21 ərr_sysi"ioctl srror"); 

22 ) else | 

23 if 'ifc.ifc len == lastlen) 

24 ureak; ye 

25 lastlen - itc.:te len; 

2c ) 

25 len += 10 * sizeof struct i^rej; 

2& Ere (buf); 

29 ) 

30 itiheac = NULL; 

11 itfipeext = &ifihead; 

32 lascrame[0] = J; 

32 cdinzme = NULL; 


创建 一 个 网 际 网 套 接 字 


图 17-7 发 出 SIOCGIFCONF 请 求 以 获取 接口 


idx = 0, Klen = 0; 
*haddr, *sdlnzmc; 


ffer size quess */ 


success, len has not changed */ 


zii 


licer i info. 


12 创建 一 个 用 于 ioct1 的 UDP 套 接 字 。TCP 套 接 字 或 UDP 套 接 


o 


字 都 可 以 使 用 (TCPv2 第 163 页 ) 
在 一 个 循环 中 发 出 SIOCGIFCONF 请 求 


13-29 SIOCGIFCONF 请 求 存 在 的 一 个 严重 问题 是 ， 在 缓冲 区 


的 大 小 不 足以 存放 结果 时 ， 一 些 实现 不 返回 错误 ， 而 是 截断 结果 并 返 


es 


回 成 功 ( 即 ioct1 的 返回 值 为 0) 


EE 


4) YN US 


味 着 要 知道 缓冲 区 是 否 足 


够 大 的 唯一 办 法 是 : 发 出 请 求 ， 记 下 返回 的 长 度 ， 用 更 大 的 缓冲 区 发 


出 请 求 ， 比 较 返 回 的 长 度 和 刚才 记 下 的 长 度 。 只 


我 们 的 缓冲 区 才 足 够 大 。 


这 两 个 长 度 相同 ， 


Us H Berkeley SEE Bat XK AVY KGS IR | (TCPv238118— 
11971) , ARMA G A KAA AAV) e SE, Solaris 2.5 
在 返回 的 长 度 将 会 大 于 或 等 于 缓冲 区 的 长 度 时 返回 EINVAL 错 误 。 然 
而 即使 返回 的 长 度 小 于 缓冲 区 的 大 小 ， 我 们 也 不 能 肯定 确实 成 功 ， 
为 源 自 Berkeley 的 实现 在 独 下 的 空间 装 不 下 男 一 个 结构 时 返回 的 长 度 
也 小 于 缓冲 区 长 度 。 


有 些 实现 中 提供 了 用 于 返回 接口 数目 的 名 为 STOCGIFNUM 的 请 
求 。 它 使 得 应 用 进程 能 够 在 发 出 SI0CGIFCONF 请 求 之 前 分 配 一 个 足 
够 大 小 的 缓冲 区 ， 不 过 这 个 新 请 求 尚未 被 广泛 实现 。 


随 着 Web 的 增长 ， 为 STOCGIFCONF 请 求 返 回 的 结果 预 分 配 一 个 固 
定 长 度 的 缓冲 区 这 一 做 法 也 成 了 问题 ， 因 为 大 的 Web 服 务 器 主机 把 越 
来 越 多 的 别名 地 址 赋予 单个 接口 。 举 例 来 说 ，Solaris2.5 对 于 每 个 接口 
可 赋予 别名 地 址 数 的 限制 为 256，Solaris 2.6 则 把 这 个 限制 增加 到 
8192。 使 用 大 量 别 名 地 址 的 网 站 已 经 发 现 使 用 固定 大 小 缓冲 区 获取 接 
口 信息 的 程序 开始 工作 失常 。 尽 管 Solaris 在 缓冲 区 太 小 时 返回 错误 ， 
这 些 程序 只 是 分 配 固定 大 小 的 缓冲 区 ， 发 出 ioct1 却 不 处 理 可 能 返回 
的 错误 ( 壁 如 重新 分 配 缓冲 区 再 次 发 出 ijoct1l) ， 导 致 进程 可 能 意外 
死亡 。 


13-16 动态 分 配 一 个 缓冲 区 ， 一 开始 为 100 个 ifreq 结 构 的 空 
间 。 在 lastlen 中 记录 最 近 一 次 STOCGIFCONF 请 求 返 回 的 长 度 ， 其 
初始 值 为 0。 


20-21 如果 ioct1 调 用 返回 一 个 EINVAL 错 误 ， 而 且 成 功 返 回 
的 ioct1 调 用 未 曾 发 出 过 ( 即 lastlen 仍 为 0”， 那 么 我 们 刚才 分 配 
的 缓冲 区 还 不 够 大 ， 于 是 继续 经 历 循环 。 


23-24 如 果 ioct1 调 用 返回 成 功 ， 而 且 返 回 的 长 度 等 于 
1astlen， 和 那么 与 上 次 ioct1 调 用 返回 的 长 度 相 比 没 有 变化 〈 表 明 刚 
才 分 配 的 缓冲 区 已 足够 大 ) ， 于 是 break 出 循环 ， 因 为 我 们 已 经 得 到 
所 有 接口 配置 信息 。 


27-28 每 次 经 历 循 环 时 ， 把 缓冲 区 的 大 小 增 至 能 额外 存放 10 个 
ifreq 结 构 。 


初始 化 链表 指针 
30-33 ”既然 将 来 要 返回 指向 某 个 ifi_info 结 构 链表 之 头 结构 


的 一 个 指针 ， 我 们 于 是 使 用 两 个 变量 ifihead 和 ifipnext 在 链表 构 
造 过 程 中 保存 指针 。 


474~ 
476 
get_ifi_infowans met tea EZ, üuÉ17-8PT 
ZN o 


liget ii info.c 
34 for (ptr = buf; ptr « but + :fc.ifc len; | 
35 ifr s (struct ifreq *) ptr; 


36 #ifdef AVE SOCXADDR 5A LEN 
7 len = maxisizeof (struct sockaddr), ifr-»ifr addr.sa len): 


AB #else 

39 switch (ifr--ifr addr.sa family) 

40 #ifdeft IPV6 

41 case A7? INET6: 

a2 len = sizeof(struct scckaddr iné); 
33 braai; 

44 #endit 

45 case A?_INET: 

46 defa t: 

37 len = sizeof(struct scckadd-): 

48 break; 

49 } 

50 &endif /* HAVE SOCKADDR SA LIN */ 

51 ptr +- sizeotiifr--ifr name) + len; /* for next ons in buffer */ 


52 #ifdef AVE SOCXADDR DL SCRUCT 


53 /* assumes that AF LINK precedes AF_INET or AF INETé */ 

54 if ‘ifr->ifr adér.sa_ family -- AF LINK) { 

55 strust sockaddr dl *sdl = {struct cockaddár dl *)&itr »:tr addr; 
36 sdlname = ifr-»ifr rame; 

37 idx = sdl-»sdl index; 

38 haddr = sdl-*sdl data + sdl-ssdl_nlen; 

59 klen = edl-sed. aler; 

50 } 

51 #endifl 

53 if ;ifr-»itfr sdz2r.sea Eamily !- zamilyj 

53 continue; /* imore if not desired address family */ 
54 myflags = 0; 

55 it |; [cprr = otrchr(itr-»ifrz nome, ':')) |= NULL; 

S *eptr - 0; /* xepisce colon with null */ 

了 if {atrncomp(lestnene, ifr-»ifr name, TFHAMSTZ) == n) { 

38 if ;doaliases == J) 

59 continue; /* already prccsesed this interface */ 
70 myElags = IPFI ALIAS; 

71 } 

72 mercry (lastname, ifr->ifr_mame, IFNAMSIZ); 

73 ifrccpy = *itr; 

74 Ioctlísockfd, SIOCGIPFLAGS, &if-copy); 

75 fix = ifrcopy.ifr flaus; 

76 if ;(flags & IFF UP) -- 0} 

7 continue; /* imore -f interface not us */ 


liget iff infc.c 


图 17-8 ”处 理 接口 配置 
步 入 下 一 个 套 接 字 地 址 结构 


35~51 在 遍历 所 有 ifreq 结 构 的 过 程 中 ，ifr 将 指向 每 个 结 
构 ， 我 们 随后 增长 ptr 以 指向 下 一 个 结构 。 这 里 我 们 必须 既 处 理 为 套 


接 字 地 址 结构 提供 长 度 字 段 的 较 新 系统 ， 又 处 理 不 提供 这 个 长 度 的 较 
老 系统 。 尽 管 图 17-2 中 的 声明 指出 ifreq 结 构 中 包含 的 套 接 字 地 址 结 
构 是 一 个 通用 套 接 字 地 址 结构 ， 在 较 新 的 系统 中 它 却 可 以 是 任何 类 型 
的 套 接 字 地 址 结构 。 事 实 上 4.4BSD 还 为 每 个 接口 返回 一 个 数据 链 路 套 
接 字 地 址 结构 \TCPv2 第 118 页 ) 。 因 此 如 果 长 度 成 员 受 支持 ， 我 们 束 
必须 使 用 其 值 来 更 新 指向 下 一 个 套 接 字 地 址 结构 的 指针 ptr， 否 则 基 
x uU PS. 默认 为 通用 套 接 字 地 址 结构 的 大 小 (165€ 
P o 


我 们 为 支持 IPv6 的 较 新 系统 增添 一 个 case 语 句 只 是 以 防 万 一 。 问 
题 在 于 ifreq 结 构 中 的 那个 联合 把 返回 地 址 定义 为 通用 的 16 字 节 
sockaddr 结 构 ， 它 对 于 IPv4 的 16 字 节 sockaddr_in 结 构 是 够 了 ， 对 
于 IPv6 的 24 字 节 sockaddr_in6 结 构 却 太 小 。 尽 管 在 为 Sockaddr 结 
构 提 供 长 度 字 段 (sa len) 的 较 新 系统 中 可 以 使 用 其 值 来 解决 本 问 
题 ， 然 而 返回 IPv6 地 址 仍 有 可 能 破坏 认为 ifreq 结 构 中 的 sockaddr 
结构 长 度 固 定 不 变 的 现 有 代码 。 


处 理 AF_LINK 


52-60 ”如 果 系 统 支 持 在 STOCGIFCONF 中 返回 AF_LINK 地 址 族 
的 sSockaddr 结 构 ， 我 们 就 从 中 复制 接口 案 引 和 硬件 地 址 信息 。 


62-63 ”忽略 所 有 不 是 调用 者 期 户 的 地 址 族 的 地 址 。 
处 理 别 名 地 址 


64~72 我们 必须 检测 当前 接口 可 能 存在 的 任何 别名 地 址 (BD 
予 该 接口 的 额外 地 址 ) 。 注 意 Solaris 用 于 别名 地 址 的 接口 名 字 中 含有 
一 个 冒号 ，4.4BSD 却 不 在 接口 名 子 上 区 分 别名 地 址 和 主 地 址 。 为 了 处 
理 这 两 种 情况 ， 我 们 把 最 近 处 理 过 的 接口 名 字 存 入 lastname， 并 且 
在 与 当前 接口 名 字 比 较 时 ， 者 有 冒 喜 则 只 比较 到 冒号 。 不 论 征 否 有 骨 
号 ， 如 有 果 比 较 结果 为 相同 ， 我 们 惑 忽略 当前 接口 。 


获取 接口 标志 


73~77 我 们 发 出 一 个 ioct1 的 SIOCGIFFLAGS 请 求 (17.573) 
以 获取 接口 标志 。ioct1 的 第 三 个 参数 是 指向 某 个 ifreq 结 构 的 一 个 


指针 ， 该 结构 中 必须 包含 要 获取 其 标志 的 接口 的 名 字 。 该 结构 是 我 们 
在 调用 ioct1 之 前 从 当前 ifreq 结 构 复 制 成 的 ， 因 为 如 果 不 这 人 么 做 ， 
ioctl1 调 用 将 窗 写 当前 ifreq 结 构 中 已 有 的 IP 地 址 ， 因 为 接口 标志 和 
IP 地 址 在 ifreq 结 构 中 是 同一 个 联合 的 不 同 成 员 ， 如 图 17-2 所 示 。 如 
FARO NATE LRA, Tul DUNT ° 


图 17-9 给 出 get_ifi_info 画 数 的 第 三 部 分 


Re Ui info.c 


78 ifi s Callcc(1, sizeof (struct ifi info)l; 

79 *lfipnsxt = ifi; /* prev points to this new ore */ 
EO izipnext = &ifi-»ifi rext; /* pointzr to next one coes hers */ 
R^ iTi-sif _flags = flegs; jA TFF «xx values */ 

E2 iti »ifi myflàqo = myticqs; /* IFI xxx values */ 

£3 &if defined (SIOCCIEMTU) e defined (HAVE STRUCT TER3Q T3R MTU) 

E4 Ioctl(sockEd, SIOCGIFMTU, &ifrcopy); 

ES ifi-sifi mtu = ifrcopy.ifr mtu; 

€6 #else 

E7 Ati->ifts mtu - 0; 

£A $endif 

E9 memcpy (i:fi->ifi_name, ifr->ifr_name, IFI NAME); 

EI ifi-sifi nane([IFI HZME-1] = '\0'; 

$1 /* If the sockaddr dl is from a different interface, igrore iż "*/ 
92 it (sdinama -- NULL || stremp(sdlname, :tr--itr name; .- UJ] 
$3 idx = hien = 0; 

$4 izi-zi£i; index = idx; 

e5 ifi->ifi_hlen = hlen; 

26 i= (i=i--i€:_hlen > IPI HADDR) 

$7 ifi->:f: hlen - IFI HADOR; 

$8 i= (hlen) 

S9 memcpy {ifi->ifi hsddr, naddr, ifi-»:fi hlen]; 


nage Gi info.c 


图 17-9 分配 并 初始 化 ifi_info 结 构 
分 配 并 初始 化 ifi_info 结 构 


78-99 至 此 我 们 知道 将 回调 用 者 返回 当前 接口 。 我 们 动态 分 配 
一 个 ifi_info 结 构 ， 并 把 它 加 到 正在 构造 中 的 链表 的 末尾 。 我 们 把 
接口 的 标志 、MTU 和 名 字 复 制 到 这 个 结构 中 。 我 们 确保 接口 的 名 字 总 
是 以 空 字符 结尾 ， 而 且 既 然 calloc 已 把 所 分 配 区 域 全 部 初始 化 为 0， 
我 们 知道 jfi_next 也 已 被 初始 化 为 空 指 针 。 我 们 复制 保存 的 接口 索 
引 和 硬件 地 址 长 度 ， 寿 该 长 度 不 为 0 则 同时 复制 保存 的 硬件 地 址 。 


图 17-10 给 出 get_ifi_info 函 数 的 最 后 一 部 分 。 


lieet UE info.c 


100 switch (ifr-»i£r gdir.sa family) | 

LOL case As INET: 

102 einprr = (struct sockaddr in *) sifr->ifr_addr; 

103 ifi-»ifi add: = Ca: loc '1, silizeo? (st ruc sockaddr in)! ; 

104 mercoy(lizi-2-ifi addr, sinptrz, sizeof(szrucc sockaddr in)); 
lU5 4itcef s.U7CC. BA4DADDE 

105 if {flags < IFF_BROADCAST) [ 

107 Tact T (sockü:i, STOCGTFA3RDADDR, & froany) ; 

108 sigpcr = struct sockaddr in *) sif€rcopy.ifr_broadaddr; 
109 ifi->ifa_brdacdr = Calloc(1, sizcoE|struct sockzdor inl); 
110 verepy (ifi->ifi brdadàr, sinptr,cizesf(struct sockac2dr in)); 
111 

112 Jencif } 

113 4i=cef 5:2CG-7DS3TADDR 

114 if ;flaqs à IFP_PCINTCPOINT) r 

115 ioctlicockr d, SIOUGIFOSTADOR, &itrcocy) ; 

116 sinptr = istruct sockaddr in +) &ifr-opy.ifr dstacdr; 

117 ifi-»ifi  dstacdr = Calloc (1, sizeoficstruct sockaddr 1i); 
118 } vercpy(ifi-sifi dstaddr, sinptr, izecf(struct sockaidr in)); 
119 

120 tencif 

121 break; 

122 zase A7 INET6: 

123 sin6ptr - (struct socxaddr in6 *) &ifr-»ifr addr; 

1241 ifi-»iti addr = Ca.loc;1l, sizeof (struc? zockaddr intj); 

125 memreoy(ifi-»ifi addr, sineptr, sizeof[struct sockadér :re)); 
126 4ifcef STZCG7"DSTADDE 

127 if {flags & IFF_POINTCPOINT) | 

28 TocstLisockid, SIOCCIFOSTADOR, &:frcocy!; 

129 sinéptr = (struct goccxadd- ine *) &:frcopy.icr dsetazdr; 
130 ifi-»ifi dstacdr = Calloc(1, sizsof:struct socksder _iné)); 
131 wercpy(ifi-2ifi dstaddr, sinépti, 

132 sizeof (struct sockaddr_int!), 

133 } 

1:4 tencift 

135 peek 

136 default 

137 break 

138 } 

139 ) 

140 free (buf) ; 

141 return (ifihead) ， ‘* pointer to first structure in linked list */ 
142 ) 


lihiger iff info.c 
图 17-10 ”获取 并 返回 接口 地 址 


102-104 ”把 由 最 初 的 STIOCGIFCONF 请 求 返 回 的 IP 地 址 复制 到 
我 们 正在 构造 的 结构 中 。 


106-119 如果 当前 接口 支持 广播 ， 我 们 就 用 ioct1 的 


SIOCGIFBRDADDR 请 求 取得 它 的 广播 地 址 。 我 们 动态 分 配 一 个 套 接 字 
地 址 结构 以 存放 该 地 址 ， 并 把 它 加 到 正在 构造 的 fi_info 结 构 中 。 
类 似 地 ， 如 果 当 前 接口 是 一 个 点 到 点 接口 ， 我 们 就 用 ioct1 的 
SIOCGIFDSTADDR 请 求 取 得 它 的 链 路 对 端 耻 地 址 。 


477~ 
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123-133 这 是 IPv6 的 情形 ， 这 段 代码 与 IPv4 情 形 的 类 似 ， 不 过 
没有 SIOCGIFBRDADDR， 因 为 IPv6 不 支持 广播 。 


图 17-11 给 出 的 是 free_ifi _info 了 范 数 ， 它 以 由 某 个 
get_ifi_info 调 用 返回 的 指针 为 参数 ， 释 放 先 前 为 这 个 调用 动态 分 
配 的 所 有 内 存 空 间 。 
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legen ifi info. 


43 vois 

144 fres ifi info(sLrüict. if; info *if itmard) 

145 { 

146 struct if. into *ifi, *iflnext; 

147 for (ifi = ifihesd; ifi !- NULL; ifi = ifinext) | 

146 if (ifi->ifi_addr != NULL) 

145 froeciifi >ifi oddrl; 

15C if (ifi-»ifi b-zzZadd- !- MULL) 

151 troej;lfi-»ifi brdaadcr); 

132 if (ifi--ifi dstadd- !- NULL) 

153 froej;ifi--ifi detadér) ; 

154 ifinext = ifi--ifl next; /* can't fetch ifi_next after freeii */ 
EL. free(1fil: fs cre 1f1 irfo(] irseif =j 
15€ ) 

57 ) 


lhigel Mi moe 


图 17-11 free ifi info 函 数 : 释放 由 get_ifi_info 动 态 分 配 的 内 存 空 间 


17.7 ”接口 操作 


我 们 已 在 上 一 节 展 示 过 ，SIOCGIFCONF 请 求 为 每 个 已 配置 的 接 
口 返回 其 名 字 以 及 一 个 套 接 字 地 址 结构 。 我 们 接着 可 以 发 出 多 个 接口 
类 其 他 请 求 以 设置 或 获取 每 个 接口 的 其 他 特征 。 这 些 请 求 的 获取 
(get) 版 本 (STOCGxxx) 通 溃 由 netstat 程 序 发 出 ， 设 置 (set) hk 
本 (SIOCSxxx) 通常 由 ifconfig 程 序 发 出 。 任 何 用 户 都 可 以 获取 接 
口 信息 ， 设 置 接 口 信息 却 要 求 具 备 超 级 用 户 权限 。 


这 些 请 求 接受 或 返回 一 个 ifreq 结 构 中 的 信息 ， 而 这 个 结构 的 地 
址 则 作为 ioct1 调 用 的 第 三 个 参数 指定 。 接 口 总 是 以 其 名 字 标 识 ， 在 
ifreq 结 构 的 ifr_name 成 员 中 指定 ， 如 1e0、100、pppg 等 。 


这 些 请 求 中 有 许多 使 用 套 接 字 地 址 结构 在 应 用 进程 和 内 核 之 间 指 
定 或 返回 具体 接口 的 IP 地 址 或 地 址 掩 码 。 对 于 IPvV4， 这 个 地 址 或 掩 码 
存放 在 一 个 网 际 网 套 接 字 地 址 结构 的 Sin_addr 成 员 中 ; 对 于 IPv6， 
它 是 一 个 IPv6 套 接 字 地 址 结构 的 sin6_addr 成 员 。 


SIOCGIFADDR 在 ifr_addr 成 员 中 返回 单 播 地 址 。 


SIOCSIFADDR 用 ifr_addr 成 员 设 置 接口 地 址 。 这 个 接口 的 初 
台 化 函数 也 被 调用 。 


SIOCGIFFLAGS 在 ifr_flags 成 员 中 返回 接口 标志 。 这 些 标 
志 的 名 字 格 式 为 IFF_xxx， 在 <net/if,h> 头 文件 中 定义 。 举 例 来 
说 ， 这 些 标志 指示 接口 是 否 处 于 在 工 状态 (IFF UP) ， 是 否 为 一 个 
点 到 点 接口 (IFF_POINTOPOINT) ， 是 否 支 持 广 播 
(IFF_BROADCAST) ， 等 等 。 


SIOCSIFFLAGS 用 ifr_flags 成 员 设置 接口 标志 。 


SIOCGIFDSTADDR 在 ifr_ dstaddr 成 员 中 返回 点 到 点 地 址 。 


SIOCSIFDSTADDR 用 ifr_dstaddr 成 员 设 置 点 到 点 地 址 。 
SIOCGIFBRDADDR 在 ifr_broadaddr 成 员 中 返回 广播 地 址 。 
应 用 进程 必须 首先 获取 接口 标志 ， 然 后 发 出 正确 的 请 求 ， 对 于 广播 接 
口 为 SIOCGIFBRDADDR， 对 于 点 到 点 接口 为 SIOCGIFDSTADDR ° 
SIOCSIFBRDADDR 用 ifr_broadaddr 成 员 设置 广播 地 址 。 
SIOCGIFNETMASK ”在 ifr_addr 成 员 中 返回 子 网 掩 码 。 


SIOCSIFNETMASK ”用 ifr_addr 成 员 设 置 子 网 掩 码 。 


SIOCGIFMETRIC 用 ifr_metric 成 员 返 回 接 口 测度 。 接 口 测 
度 由 内 核 为 每 个 接口 维护 ， 不 过 使 用 它 的 是 路 由 守护 进程 routed 。 
接口 测度 被 routed 加 到 跳 数 上 (使 得 某 个 接口 更 不 被 看 好 ) 。 

SIOCSIFMETRIC 用 ifr_metric 成 员 设置 接口 的 路 由 测度 。 


本 节 讲 述 的 是 通用 的 接口 请 求 。 许 多 实现 中 都 加 入 了 其 他 的 请 


17.8 ”ARP 高 速 缓存 操作 


ARP 高 速 缓存 也 通过 ioct1 函 数 操纵 。 使 用 路 由 域 套 接 字 (第 18 
章 ) 的 系统 往往 改 用 路 由 套 接 字 访 问 ARP 高 速 缓存 。 这 些 请 求 使 用 一 
个 如 图 17-12 所 示 的 arpreq 结 构 ， 它 定义 在 头 文件 <net/if_arp.h> 
中 [9] 


- «nef arp h> 
wLrurd a prey ! 
struct scckaddr arp pa: /* protocol address */ 
etruct ecckaddr aro nat /* hardware addrece */ 
int arp flags; /* flags */ 
T 
Hdefine ATP INSSE 0x01 /* entry in use */ 
#defire RTF TOV 0x02 /* completec entry (hardware azdr valid) */ 
fdefine ATF PERM 0x04 /* permanent entry */ 
4dcfinc ATP_CUSL OxOE /* publishes centry (respond tor cther host! */ 
* net/f arp.h> 


图 17-12 ARP 高 速 缓存 类 ioct1 请 求 所 用 的 arpreq 结 构 


ioct1 的 第 三 个 参数 必须 指 同 某 个 arpred 结 构 。 探 纵 ARP 高 速 
缓存 的 ioct1 请 求 有 以 下 3 个 。 
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SIOCSARP 把 一 个 新 的 表 项 加 到 ARP 高 速 缓存 ， 或 者 修改 其 中 
已 经 存在 的 一 个 表 项 。 其 中 arp_pa 是 一 个 含有 IP 地 址 的 网 际 网 套 接 字 
地 址 结构 ，arp_ha 则 是 一 个 通用 套 接 字 地 址 结构 ， 它 的 sa_family 
值 为 AF_UNSPEC，sa_data 中 舍 有 硬件 地 址 Ais E TAIL AH 
HE) 。ATF_PERM 和 ATF_PUBL 这 两 个 标志 也 可 以 由 应 用 程序 指定 。 
另外 两 个 标志 (ATF_INUSE 和 ATF_COM) 则 由 内 核 设置 。 


SIOCDARP 从 ARP 高 速 缓存 中 删除 一 个 表 项 。 调 用 者 指定 要 删 
除 表 项 的 网 际 网 地 址 。 


SIOCGARP “从 ARP 高 速 缓存 中 获取 一 个 表 项 。 调 用 者 指定 网 际 
网 地 址 ， 相 应 的 硬件 地 址 (例如 以 太 网 地 址 ) 随 标志 一 起 返回 。 


只 有 超级 用 户 才能 增加 或 删除 表 项 。 这 3 个 请 求 通常 由 arp 程 序 发 
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一 些 较 新 的 系统 不 文 持 这 些 与 ARP 相 关 的 ioct1 请 求 ， 而 改 用 路 
由 套 接 字 执行 这 些 ARP 操 作 。 


注意 ioct1 没 有 办 法 列 出 ARP 高 速 缓存 中 的 所 有 表 项 。 当 指定 -a 
标志 〈 列 出 ARP 高 速 缓存 中 的 所 有 表 项 ) 执行 arp 命 令 时 ， 大 多 数 版 
本 的 arp 程 序 通过 读 取 内 核 的 内 存 (/dev/kmem) 获得 ARP 高 速 缓存 
的 当前 内 容 。 我 们 将 在 18.4 节 讨论 一 个 使 用 sysct1 做 到 这 一 点 的 更 简 
y (HREH) 的 方法 ， 不 过 这 个 方法 并 非 所 有 系统 上 都 可 用 。 


例子 : 输出 主机 的 硬件 地 址 


现在 使 用 我 们 的 get_ifi_info 范 数 返 回 一 个 主机 的 所 有 IP 地 
址 ， 然 后 对 每 个 IP 地 址 发 出 一 个 STOCGARP 请 求 以 获取 并 显示 它 的 人 硬 
件 地 址 。 程 序 如 图 17-13 所 示 。 


iocil/prmac.c 


1 @include "ur.pifi.t" 
2 finclude -nst/if arp.h» 


3 int 


4 rwiclin- argu, char *^argw) 

5 

6 int sockfd; 

? struct ifi irfo *-fi; 

A wisiqned char *ptr; 

9 otruct arprec zrcroqd; 

10 struct sockacdr in *3in; 

li SCCKEG = socket (OF INET, SOCK D-RAM, 0); 

12 ter (iti = qct it- into\AF INET, 0); ifi != NULL; iti ~ iti »iti rcxt) [ 
13 print=(*ts: ", Sock ntop'ifi-siFfi &dZr, sizecf (struct sockaddr inl); 
14 Sir = (struct sockaddr in *) Sarpreq.arp pa; 

15 memcpv(sin, ifi >iti_addr, sizeof(struct soc«add- ir); 
16 if (ioctlisockfd, SIOOGARP, &arpreq! < 0) ( 

17 err ret("ioccl SLUCGAKP"); 

18 cortinue; 

19 ) 

" ptr - &arpreq.arp ha,ea data:2]; 

el printz('*x:Yx:6x:x:tx: x n", *ptr, *(ptr 1), 

<2 *(ptr«2), *(ptrell. *iptr+d). *Iptre5)); 

23 } 

24 exitio); 

25 1 


iocil/prmac.c 


图 17-13 ”输出 一 个 主机 的 硬件 地 址 
获取 地 址 列表 并 遍历 每 个 地 址 


12 调用 get_ifi_info 获 取 本 主机 所 有 IP 地 址 ， 然 后 在 一 个 循 
环 中 裔 历 每 个 地 址 。 


输出 IP 地 址 


13 使 用 inet_ntop 显 示 了 地址 。 我 们 要 求 get_ifi_info 仅 
仅 返回 IPv4 地 址 ， 因 为 IPv6 不 使 用 ARP。 


发 出 ioct1 请 求 并 检查 错误 

14-19 ”作为 一 个 IPv4 套 接 字 地 址 结构 在 arp_pa 中 填 入 IPv4 地 
址 。 调 用 ioct1l1， 若 返回 错误 ( 壁 如 说 所 提供 的 地 址 不 在 支持 ARP 的 
某 个 接口 上 ) 则 显示 相应 错误 消息 ， 并 继续 处 理 下 一 个 地 址 。 
输出 硬件 地 址 

20-22 ”显示 由 ioct1 调 用 返回 的 硬件 地 址 。 
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在 我 们 的 hpux 主 机 上 运行 本 程序 得 到 如 下 结 采 : 


hpux % prmac 
192.6.38.100: 0:60:b0:c2:68:9b 


192.168.1.1: 0:60:b0:b2:28:2b 
127.0.0.1: ioctl SIOCGARP: Invalid argument 


17.9 ”路 由 表 操 作 


有 些 系 统 提 供 2 个 用 于 操纵 路 由 表 的 ioct1 请 求 。 这 2 个 请 求 要 求 
ioct1 的 第 三 个 参数 是 指向 某 个 rtentry 结 构 的 一 个 指针 ， 该 结构 定 
义 在 <net/Vroute.h> 头 文件 中 。 这 些 请 求 通常 由 route 程 序 发 出 。 
只 有 超级 用 户 才 能 发 出 这 些 请 求 。 在 支持 路 由 域 套 接 字 〈 第 18 章 ) 的 
系统 中 ， 这 些 请 求 改 由 路 由 套 接 字 而 不 是 ioct1 执 行 。 


483 
SIOCADDRT 往 路 由 表 中 增加 一 个 表 项 。 
SIOCDELRT 从 路 由 表 中 删除 一 个 表 项 。 


ioctl1 没 有 办 法 列 出 路 由 表 中 的 所 有 表 项 。 这 个 操作 通 第 由 
netstat 程 序 在 指定 -r 标 志 执 行 时 完成 。netstat 程 序 通过 读 取 内 
核 的 内 存 (/dev/kmem) 获得 整个 路 由 表 。 与 ARP 高 速 缓存 的 列 示 一 
|| eee ere ( 且 更 
f) 的 方法 。 


17.10 ^l 
用 于 网 络 编程 的 ioct1 命 令 可 划分 为 6 类 : 


。 套 接 字 操 作 (是 否 位 于 带 外 标记 等 ) ; 

。 文件 操作 《设置 或 清除 非 阻塞 标志 等 ) ; 

。 接口 操作 〈 返 回 接口 列表 ， 获 取 广 播 地 址 等 ) : 
。 ARP 表 操作 (创建 、 修 改 、 获 取 或 删除 ); 


路 由 表 操 作 (增加 或 删除 ) ; 
流 系统 (第 31 章 ) e 


我 们 将 使 用 其 中 的 套 接 字 操作 和 文件 操作 ， 而 接口 列表 的 获取 是 
一 个 相当 第 用 的 操作 ， 我 们 为 此 开发 了 一 个 完成 本 操作 的 函数 。 在 本 
书 以 后 章节 我 们 会 数 次 使 用 这 个 函数 。 只 有 若干 个 特殊 用 途 的 程序 使 
用 ioct1 的 ARP 高 速 绥 冲 操 作 和 路 由 表 操 作 。 


习题 


17.1 在 17.7 节 我 们 说 过 ， 由 SIOCGIFBRDADDR 请 求 返回 的 广播 
地 址 是 通过 ifreq 结 构 的 ifr_broadaddr 成 员 返回 的 。 然 而 查看 
TCPv2 第 173 页 ， 我 们 注意 到 它 是 在 ifr_dstaddr 成 员 中 返回 的 。 这 
里 有 问题 吗 ? 


17.2 ”修改 get_ifi_info 函 数 ， 当 发 出 第 一 个 SIOCGIFCONF 
请 求 时 指定 缓冲 区 的 大 小 (由 ifconf 结 构 的 jfc_len 成 员 指定 ) 为 
只 能 容纳 1 个 ifreq 结 构 ， 以 后 每 回 循环 时 指定 缓冲 区 的 大 小 为 新 增 1 
个 ifreq 结 构 的 容量 。 然 后 在 循环 体 中 增加 一 些 语句 ， 以 显示 每 回 发 
出 请 求 时 指定 的 缓冲 区 大 小 以 及 ioct1l 是 否 返 回 错误 ， 若 成 功 返 回 则 
显示 返回 的 缓冲 区 长 度 。 运 行 prifinfo 程 序 ， 查 看 你 自己 的 系统 在 
缓冲 区 太 小 时 如 何 处 理 这 样 的 请 求 。 对 于 由 ioct1 返 回 的 其 地 址 族 并 
非 所 期 望 值 的 任何 套 接 字 地 址 结构 ， 也 显示 其 地 址 族 值 ， 以 便 了 解 你 
的 系统 返回 了 哪些 其 他 结构 。 


17.3 ”修改 get_ifi_info 函 数 ， 如 果 某 个 接口 存在 别名 地 址 ， 
而 且 当 前 正 处 理 的 别名 地 址 与 该 接口 最 近 人 处 理 的 地 址 ( 主 地 址 或 男 一 
个 别名 地 址 ) 不 在 同一 个 子 网 上 ， 那 么 也 返回 关于 当前 别名 地 址 的 信 
息 。 那 么 17.6 节 中 的 版 本 忽略 从 206.62.226.44 到 206.62.226.46 的 别名 地 
址 是 可 以 接受 的 ， 因 为 它们 都 处 于 主 地 址 所 在 的 子 网 。 然 而 如 果 该 接 
口 又 一 个 别名 地 址 〈 璧 如 192.3.4.5) 不 在 同一 个 子 网 ， 那 么 修改 后 的 
版 本 应 该 也 为 该 别名 地 址 返回 一 个 ifi_info 结 构 。 


17.4 如 果 你 的 系统 支持 SIOCGIFNUM ioctl1， 那 就 修改 图 17- 
7， 先 发 出 这 个 请 求 ， 再 以 其 返回 值 作 为 最 初 猜测 的 缓冲 区 大 小 。 
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第 18 章 ”路 由 套 搂 字 


18.1 概述 


内 核 中 的 Unix 路 由 表 传 统 上 一 直 使 用 ioct1 命 令 访问 。 我 们 在 
17.9 节 讲解 了 用 于 增加 或 删除 路 径 的 2 个 ioct1 请 求 : SIOCADDRT 和 
SIOCDELRT。 我 们 还 提 到 没有 ioct1 命 令 可 以 倾泻 出 整个 路 由 表 ， 相 
反 ， 诸 如 netstat 等 程序 通过 读 取 内 核 的 内 存 获取 路 由 表 的 内 容 。 使 
得 问题 更 为 复杂 的 再 一 点 是 ， 诸 如 gated 等 路 由 守护 进程 需要 监视 由 
内 核 收取 的 ILCMP 重 定 问 消 息 ， 它 们 通常 创建 一 个 原始 ICMP 套 接 字 

(第 28 章 ) ， 再 在 这 个 套 接 字 上 监听 所 有 收 到 的 ICMP 消 息 。 


4.3BSD Reno 通 过 创建 AF_ROUTE 域 对 访问 内 核 中 路 由 子 系统 的 接 
口 做 了 清理 。 在 路 由 域 中 支持 的 唯一 一 种 套 接 字 是 原始 套 接 字 。 路 由 
套 接 字 上 支持 3 种 类 型 的 操作 。 


(1) 进程 可 以 通过 写 出 到 路 由 套 接 字 而 往 内 核发 送 消 恩 。 路 径 的 增 
加 和 删除 采用 这 种 操作 实现 。 


(2) 进程 可 以 通过 从 路 由 套 接 字 读 入 而 目 内 核 接 收 消 妃 。 内 核 采 用 
这 种 操作 通知 进程 已 收 到 并 处 理 一 个 ICMP 重 定 回 消 轧 ， 或 者 请 求 外 部 
路 由 进程 解析 一 个 路 径 。 

以 上 两 种 操作 可 以 复合 使 用 。 举 例 来 说 ， 进 程 通过 写 一 个 路 由 套 
受 字 往 内 核发 送 一 个 消 思 ， 请 求 内 核 提 供 关 于 有 某 个 给 定 路 径 的 所 有 信 
时 ， 又 通过 读 这 个 路 由 确 接 字 接收 内 核 的 应 答 。 


EU 
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(3) 进程 可 以 使 用 sysct1 函 数 (18.477) 倾泻 出 路 由 表 或 列 出 所 
有 已 配置 的 接口 。 


前 两 种 操作 需要 超级 用 户 权限 ， 最 后 一 种 操作 任何 进程 都 可 以 执 
行 。 


— FE BCRTATERTE A AEK T IIA E ES Pe BIER UM PR 
要 求 ， 转 而 仅仅 限制 改动 路 由 表 的 消息 需要 超级 用 户 权 限 才 能 访问 。 
eee 户 就 可 以 使 用 诸如 RTM_GET 之 类 的 消息 

ERRE 


从 技术 上 说 ， 第 3 种 操作 并 非 使 用 路 由 套 接 字 执 行 ， 而 是 涉及 通用 
的 sysct1 函 数 。 然 而 我 们 将 会 看 到 ，sysct1 的 输入 参数 之 一 是 地 址 
族 。 对 于 本 章 讲解 的 第 3 种 操作 来 说 ， 这 个 参数 为 AF_ROUTE， 而 且 
sysct1 返 回 的 信息 与 内 核 通 过 路 由 套 接 字 返 回 的 信息 有 相同 的 格 
式 。 实 际 上 在 4.4BSD 内 核 中 ，sysct1 对 AF_ROUTE 地 址 族 的 处 理 是 
路 由 套 接 字 代码 的 一 部 分 (TCPv258632~64301) ° 


sysct1 工 具 首 先 出 现在 4.4BSD 中 。 不 幸 的 是 ， 并 非 所 有 支持 路 
由 套 接 字 的 实现 都 提供 sysct1。 举 例 来 说 ，AIX 5.1 和 Solaris 9 都 支持 
路 由 套 接 字 ， 然 而 两 者 都 不 支持 sysctl1。 


18.2 ”数据 链 路 套 接 字 地 址 结构 


通过 路 由 套 接 字 返 回 的 一 些 消 息 中 含有 作为 返回 值 给 出 的 数据 链 
路 套 接 字 地 址 结构 。 图 18-1 给 出 了 这 个 结构 ， 它 定义 在 
«net/if dl1.h> 头 文件 中 。 


skruet sockacds dl ‘ 


uint? t sdl len; 

ea family t sdl_ family; /* AF LINK */ 

uintié t sdl index; /* system assigned index, if > 0 */ 

uint? t sdl tycze; /* IFT RTZRR, ect. fron «net/i^ types => a/ 
uint? t sdl nlen; /* name length, starting in scl cata[0] */ 
uintB t sdl alen; /* link-layer address Length 4/ 

Uints t sdl slen; /* link-layer selector length */ 

cnar sdl data[12]; /* minimum work area, can be larcer; 


contains i/f name and link-layer address */ 


图 18-1 ”数据 链 路 套 接 字 地 址 结构 


每 个 接口 都 有 一 个 唯一 的 正 值 索 引 ， 返 回 索 引 的 手段 有 : 本 章 靠 
后 讲解 的 1f_nametoindex 和 if_nameindex 函 数 ， 第 21 章 中 讲解 
的 IPv6 多 播 套 接 字 选 项 ， 第 27 章 中 讲解 的 一 些 IPv4 和 IPv6 高 级 套 接 字 
选项 。 


sdl_data 成 员 含 有 名 字 和 链 路 层 地 址 (例如 以 太 网 接口 的 48 位 
MAC 地 址 ) 。 名 字 从 sdl_data[90] 开 始 ， 而 且 不 以 空 字 符 结尾 。 链 
路 层 地 址 从 sdl_data[sdl_nlen] 开 始 。 定 义 本 结构 的 头 文件 定义 
了 以 下 这 个 宏 以 返回 指向 链 路 层 地 址 的 指针 。 


#define LLADDR(s) ((caddr_t)((s)->sdl_data + (s)-»sdl nlen)) 


数据 链 路 套 接 字 地 址 结构 是 可 变 长 度 的 (TCPv2 第 89 页 ) 。 如 果 
链 路 层 地 址 和 名 字 总 长 超出 12 字 节 ， 结 构 将 大 于 20 字 节 。 在 32 位 系统 
上 ， 这 个 大 小 通常 向 上 侈 入 到 下 一 个 4 字 节 的 倍数 。 我 们 还 将 在 图 22-3 
中 看 到 ， 由 IP_RECVIF 套 接 字 选项 返回 的 本 结构 中 ， 所 有 3 个 长 度 成 
员 都 为 0， 从 而 根本 没有 sd1_data 成 员 。 


18.3 mAs 


创建 一 个 路 由 套 接 字 后 ， 进 程 可 以 通过 写 到 该 套 接 字 向 内 核发 送 
命令 ， 通 过 读 目 该 仁 接 字 从 内 核 接收 信息 。 路 由 域 父 接 字 共有 12 个 路 
由 消息 ， 其 中 5 个 可 以 由 进程 发 出 。% 这 些 消 息 定义 在 
<net/route.h> 头 文件 中 ， 如 图 18-2 所 示 。 


HEA i i 绪 构 类 型 
Hi writ 
Psy. WERP 
Hd at WEE 
WERE Ee 

x Mh uem HE Lg 
报告 测度 及 其 他 路 径 沪 总 


RTM An 
ETM _ CHANGE 
RTM LELADDR 
有 RTM LELETE 
ETM DELMADDR 
RTM SEL 


Lio cashür 
rt mezhdr 
lfa vmgixi- 
rt mezhdr 
ifma_msghdr 


| 


| 


RTM_IFAMNOUNCE He LERE H AB ee Be A Se if snrouncemsgkdr 
RTM IFIMFO 接口 正在 开工 -停工 等 if mschdr 

PTM LOCK BERE T) 3o ME -t mszhdr 
RTM_LOSING FY HRP at fe 31 A rt_megndr 

RTM WISS Hh EL f TEACIN rt megdr 

RTM NEXADDR Sh bb ie S EHI iza mcahdr 
RTM_NEWMADDE BIHE ROA ELI ifma magi: 

RTM_ RECIRECT FS Bj t EL AM PRS xt ncqadr 

RTM RESOLVE 请 求 把 叶 的 二 十 解析 碟 链 路 层 地 址 | rt megadr 


图 18-2 ”通过 路 由 套 接 字 交换 的 消息 类 型 
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通过 路 由 套 接 字 交 换 的 结构 有 5 个 类 型 ， 如 图 中 最 后 一 列 所 示 : 


rt_msghdr 、if_msghdr、ifa_msghdr、ifma_msghdr 和 
if_announcemsghdr， 具 体 的 定义 如 图 18-3 所 示 。 


etruct rt megrár { /* from enet/routa.n» v/ 


u shcrt rtm msc-sn; /* co skip over non-understcod messages */ 
4 char rtm version; /* future binary compatibility */ 
4 char rtm tyre; /* message type */ 
i short rtm index; /* index for associated ifp */ 
int rtm flags; /* flags, incl. kern & message, e.g., DONE */ 
int rtm sdirs; J* hi-mask identifying sockad2rs in mag */ 
pidt rum pid; J* identify sender ^/ 
int rtm sed; /* for sender to identify action */ 
int rtm errn; /* why faileé */ 
int rtm vse; /* from rtentry */ 
4 long rtm inits, /* which metrics ve are initializing */ 
struct r- mctricortm rnx; /* metrics themeclvss */ 

hi 

ctruct at_moghdr { /* trom «nct/iz.h» */ 
4 Bhcrt ifm msc_an; /* to skip over non-underetcod messaqes */ 
4 char  izm version; /* future binary compatibility */ 
4 char itm tyce; /* message typa */ 
int itm _eddérs; /* like rtm_addrs */ 
int i?m flags; /* value of if flags */ 
4 shcrt ifm index; /* index fo- assccia-ed ifp */ 


struct if date ifm data; /* statistics and other data about if */ 


) 


struct ifa_machdr + /* from cnet./i^.h» */ 
1 Sheri i Tem meglen; J* to skip over an-underslcoex) messages ^ / 
4 char ifam versicn; /* futurs binary compatibility */ 
4 char ifam typs; /* message type */ 
int ifam_addrs; /* like rtu addrs */ 
int izam flags; /* value of ifa E.ags */ 
4 shcrt izem index; /* index for asscciated ifp */ 
int itam metric; /* value of ifa metric */ 
hi 


ctruct itma mcghdr ( — /* trom <nct/it.h> */ 
4 Bhort izmam teglan; /* to skip over non-urderstood messaces */ 
4 char  izmam version; /* future kinary compatibility */ 


u_char imam tvpe; /* message typa */ 

int ifmam ad3rs; /* like rtm addrs */ 

int i*mam f^ags; /* value of ifa flags */ 

4 shcrt itmam index; /* index for assccia-ed ifp */ 


E 


struct if armnpurcerexjzdr ( f^ from «ue-/if.h» */ 


ishert i^an msglea; /* rà skip over aon-understoed messages */ 
4 zhar  iZan versicn; /* future binary compatibility */ 

4 zhar ian typs; /* message type */ 

4 shcrt ifan_indsx; /* index for asscciated ifp */ 

char iZan nans /IFNAMSIZ.; /* if name, e.g. "end" */ 

4 shcrt izan what; /* what type of announcement */ 


Fi 


图 18-3 路 由 消息 返回 的 三 种 结构 


每 个 结构 有 相同 的 前 3 个 成 员 : 本 消息 的 长 度 、 版 本 和 类 型 。 类 型 
成 员 是 图 18-2 第 一 列 中 的 党 值 之 一 。 长 度 成 员 人 允许 应 用 进程 跳 过 不 理 
解 的 消息 类 型 。 


rtm addrs、ifm addrs 和 ifam_addrs 这 3 个 成 员 是 数位 掩 码 
(bit mask) ， 指 明 本 消息 后 跟 的 套 接 字 地 址 结构 是 8 个 可 能 选择 中 的 


WEJL^- » Al18-428 E T f&«net/route.h»3k cee Hie MAY APE 
辑 或 成 数位 掩 码 的 各 个 常 值 及 具体 数值 。 


Hoc s 数组 下 标 
常 什 8 dH 


Zr 


[e] 


RTA LST RTAX DST 目的 地 址 

RTA GATEWAY RTAX GATEWAY 1 网 关 地 址 

RTA NEMASK RIAM NETMASK iR rer 

RTA_GENMASK RTAX GENMASK oy as Hera 

RTA_IFP 1 RTAX_IFP 接口 名 字 

RTA_IFA RTAX IFA 接口 地 址 

RTA AUTHOR RTAX AUTHOR (s np Ii and y 

RTA BRD RIAX BRD ^28: 5 20 p E] 593p ET. 
最 大 元 素数 日 


e|- A UF Wh 


RTAX MAX 


图 18-4 在 路 由 消息 中 用 于 指称 套 接 字 地 址 结构 的 常 值 
当 存 在 多 个 套 接 字 地 址 结构 时 ， 它 们 总 是 按 表 中 所 示 的 顺序 排 


JE 


例子 ， 获取 并 输出 一 个 路 由 表 项 


下 面 举 一 个 使 用 路 由 套 接 字 的 例子 。 我 们 这 个 程序 作为 命令 行 参 
数 取 得 一 个 IPv4 点 分 十 进 制 数 地 址 ， 并 就 这 个 地 址 向 内 核发 送 一 个 
RTM_GET 消 息 。 内 核 在 它 的 IPv4 路 由 表 中 查找 这 个 地 址 ， 并 作为 一 个 
RTM_GET 消 息 返 回 相 应 路 由 表 项 的 信息 。 举 例 来 说 ， 如 果 在 主机 
freebsd 上 执行 如 下 命令 : 


freebsd # getrt 206.168.112.219 
dest: .0 


gateway: 12.106.32.1 
netmask: .0 


那么 可 以 看 到 目的 地 址 使 用 默认 路 径 (默认 路 径 在 路 由 表 中 的 目 
的 IP 地 址 为 .0， 掩 码 为 0.0.0.0) 。 下 一 跳 路 由 器 是 主机 freebsd 接 入 
因特网 的 网 关 。 如 果 指 定 主 机 freebsd 的 第 二 个 以 太 网 接口 所 在 子 网 
为 目的 地 址 执行 如 下 命令 : 


freebsd # getrt 192.168.42.0 
dest: 192.168.42.0 


gateway: AF_LINK, index=2 
netmask: 255.255.255.0 


那么 目的 地 址 就 是 网 络 本 身 。 网 关 现在 是 外 出 接口 ， 它 作为 一 个 
sockaddr_d1 结 构 返 回 ， 接 口 索引 为 2。 


在 给 出 源 代码 之 前 ， 我 们 通过 图 18-5 展 示 写 到 路 由 套 接 字 的 信息 


以 及 由 内 核 返 回 的 信息 。 


送 往 内 核 
的 经 冲 区 


rt msghdr() 


rtm type = 
RTM GET 


目的 套 接 字 
地 让 结构 


RTA_DST 


AEN 
fro ae x 


rt msghdr() 


rtm type - 
RTM GET 


E tides 
地 址 结构 


IM X: dry 
地 址 结构 


j ta HETE 
ERTE 


Wt Fede aee x F 


地 址 结构 


RTA DST 


RTA_GATEWAY 


RTA NETMASK 


RTA_GENMASK 


图 18-5 ”RTM_GET 命 令 通过 路 由 套 接 字 与 内 核 交 换 的 数据 


我 们 构造 一 个 缓冲 区 : 以 一 个 rt_msghdr 结 构 开 头 ， 后 跟 一 个 套 
接 字 地 址 结构 ， 其 中 含有 要 内 核查 找 的 目的 地 址 。rtm_type 为 
RTM_GET，rtm_addrs 为 RTA_DST (回顾 图 18-4， 这 表示 那个 唯一 
的 套 接 字 地 址 结构 中 含有 目的 地 址 ) 。 本 命令 可 用 于 任何 内 核 为 之 提 
ee 因为 待 查找 地 址 的 协议 族 包 含 在 套 接 字 地 址 结构 


把 该 消息 发 送 给 内 核 后 ， 我 们 读 回 应 答 ， 其 格式 如 图 18-5 右 侧 所 
示 : 一 个 rt_msghdr 结 构 后 最 多 跟 4 个 套 接 字 地 址 结构 。 这 4 个 套 接 字 
地 址 结构 中 哪些 得 以 返回 取决 于 路 由 表 项 。 我 们 通过 检查 返回 的 
rt_msghdr 结 构 中 rtm_addrs 成 员 的 值得 悉 返 回 了 哪些 套 接 字 地 址 
结构 。 每 个 套 接 字 地 址 结构 的 协议 族 包 含 在 sa_family 成 员 中 ， 对 于 
刚才 那 两 个 例子 ， 前 者 返回 的 网 关 是 一 个 IPv4 套 接 字 地 址 结构 ， 后 者 
返回 的 网 关 则 是 一 个 数据 链 路 套 接 字 地 址 结构 。 


图 18-6 给 出 了 我 们 的 程序 的 前 半 部 分 。 


routeeetric 


1 #include “ucproule. l" 


2 $de-ine BUFLSH  (sizeofistruct rt ruxyudr) + 512] 
3 /* giscot(struct sockaddr int) * 8 = 132 */ 
4 #define SES 9939 


5 im 
6 main(int argc, char **argv] 


a4 


8 int sockEd; 

a char * buf; 

LO pid t oid; 

11 ocisc t n: 

12 struct rt msghór *rtw; 

13 struct sockaddr *sa, *rti info[*TAX MAX]; 

14 struct sockaddr in "sin; 

15 if (&xcc != 2) 

16 zrr quit('usage: getr- «IPaddress»5"'; 

17 sockfd = Socket AF ROUTE, SOCK AW, 01; /* need superuser privileges */ 
18 buf = Callcc(i, BHUFLEN!; /* and initialized to U */ 

19 rtm = (struct rt masqhdr *) buf; 

20 rtm-2-tm msglen = sizeof(struct rt msghdr| + sizaof struct sockaddr_in); 
21 rtm->rtm_versicn = RTM VERSION; 

22 rtm-»rztm typa = RIM GET; 

25 rtm-2-tm asdrs ~ RTA_DST; 

24 rtim-»7tm pid = pid = getpid(); 

25 rtm-2-tm seq = SSQ; 

26 sin = (etruct sockaddr_in *) (rom 4 1); 

27 sin->sin_len = sizeof!strzuct sockaddr in); 

28 sin->sin_family = AF_INET; 

29 Inet pton [AF INET, argv(ij], asin--ein addr); 

30 Wrize(socktd, rtm, rtm --tm nsalcn); 

31 do { 

a2 n s Rewd(sockfd, rtm, BUFLEN); 

33 ) while (rtm-»rtwm zype !- RIM GIT || ztm--rt» sec !- sæ || 
34 rzn-»rtm pid |= zid); 


route/getri.c 


图 18-6 ”通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 前 半 部 分 


1-3 unproute.h 头 文件 以 #include 伪 代码 包含 一 些 必需 的 
头 文件 ， 最 后 是 unp . h 文 件 。 常 值 BUFLEN 是 我 们 分 配 来 存放 发 送 给 
内 核 的 消息 和 内 核 返回 的 应 答 的 缓冲 区 的 大 小 。 该 绥 冲 区 应 能 存放 一 
个 rt_msghdr 结 构 和 可 能 多 达 8 个 的 套 接 字 地 址 结构 (能 够 返回 的 最 
大 数目 ) 。 既 然 一 个 IPv6 套 接 字 地 址 结构 的 大 小 是 28 个 字 节 ，512 字 节 
空间 足以 存放 这 么 多 套 接 字 地 址 结构 。 


创建 路 由 套 接 字 


17 创建 一 个 AF_ROUTE 域 的 原始 套 接 字 ， 如 前 所 述 ， 这 一 步 可 
能 需要 超级 用 户 权限 。 


填写 rt_msghdr 结 构 

18-25 分 配 一 个 缓冲 区 并 初始 化 为 0° 在 该 缓冲 区 上 构造 一 个 
rt_msghdr 结 构 : 填写 我 们 的 请 求 ， 并 存放 我 们 的 进程 ID 和 选 定 的 序 
列 号 。 我 们 将 在 读 取 的 应 答 中 匹配 这 些 值 ， 以 寻找 正确 的 应 答 。 
以 目的 地 址 填写 网 际 网 套 接 字 地 址 结构 


26-29 ” 紧 跟 rt_msghdr 结 构 ， 我 们 构造 一 个 sockaddr_in 结 
构 ， 其 中 含有 要 内 核 在 其 路 由 表 中 和 查找 的 目的 IPv4 地 址 。 我 们 仅仅 设 
置地 址 长 度 、 地 址 族 和 地 址 本 身 。 


write 消 息 到 内 核 并 read 应 管 

30-34 write 构造 好 的 消息 到 内 核 并 read 回 应 答 。 既 然 其 他 进 
程 也 可 能 打开 路 由 套 接 字 ， 而 且 内 核 给 所 有 路 由 套 接 字 都 传送 一 个 全 
部 路 由 消息 的 副本 ， 于 是 我 们 必须 检查 消息 的 类 型 、 序 列 号 和 进程 
ID， 以 确保 收 到 的 消息 正 是 我 们 所 等 待 的 应 答 。 


本 程序 的 后 半 部 分 在 图 18-7 中 给 出 。 这 一 半 会 处 理应 答 。 


route gelri, C 
35 rm = (istrucr rt_nsgndr *) buf: 
36 sa = (struct sockaddr *) i-tm + 1); 
av gat rcaddre(rtm-»rtm addre, sa, rti info); 
38 if ( (sa = rti iafa[STAX DST|) != NULZ) 
19 prantc(*decst: ten", cock_ntop_host (ca, za-»2a len!): 
40 iE ( (sa = rti iafo[STAX GATEWAY]) !- NULL) 
41 printf(*gazeway: 1s Mn", Scck ntop host(sa, sa--sa len)]; 
42 i£ ( (6a = rti infs[RlAX NEIMASK]) l= NULL) 
43 p int? (*nenmask: &s\n", Si ck masktopíss, &a-»5a len)!; 
g4 1f ( (sa - rti info(xTAX SENMASK]) t= NULL) 
45 p-int£(*geonasx: %s\n", Scck masktopí(se, sa-»sa len)'; 
46 exiti3): 
47 


rou'eigetri.c 


图 18-7 通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 后 半 部 分 


35-36 rtm 指 向 rt_msghdr 结 构 ，sa 指 向 接 在 其 后 的 第 一 个 套 
接 字 地 址 结构 。 


37 rtm_addrs 是 一 个 数位 掩 码 ， 指 出 接 在 rt_msghdr 结 构 之 
后 的 是 8 个 可 能 的 套 接 字 地 址 结构 中 的 哪儿 个 。get_rtaddrs 函 数 
(接着 给 出 ) 以 该 掩 码 和 指 癌 第 一 个 套 接 字 地 址 结构 的 指针 (sa) 为 
参数 ， 在 rti_info 数 组 中 填 入 指 癌 相应 套 接 字 地 址 结构 的 指针 。 假 
设 图 18-5 所 示 的 所 有 4 个 套 接 字 地 址 结构 都 被 内 核 返 回 ， 结 
rti_info 数 组 将 如 图 18-8 所 示 。 


pp Heo [n 
mix np pe 


rt msghdr() 


ztm type = 
RTM GET 


rti info[RTAX DST] 
rti info[RTAX GATEWAY] 
rti info|RTAX NETMASK] 
rti info[RTAX GENMASK] 
rti info[RTAX IFP! 
rti info[RTAX IFA] 
rti info[RTAX AUTHOR] 
rti info[RTAX BRD! 


EEH F 
Hi 5515 


网 关 套 接 字 
bh hha Ky 


pz et 45 ny 
性 址 结构 


si PEE 


考 址 结构 


图 18-8 get_rtaddrs 画 数 填写 的 rti_info 结 构 


然后 我 们 的 程序 会 遍 查 rti_info 数 组 ， 对 其 中 所 有 非 空 指针 执 
行 想 做 的 处 理 。 


38-45 若 存 在 则 逐个 显示 4 个 可 能 的 地 址 。 显 示 目 的 地 址 和 网 关 
地 址 使 用 sock_ntop_host 函 数 ， 显 示 两 个 掩 码 使 用 
sock_masktop 函 数 。 我 们 稍 后 给 出 这 个 新 函数 。 


118-928 HAY 118-7 Fal A get. rtaddrsERZ ° 


librotite/ge_riadars.c 


1 &irclYuce "unprnout e, h" 
a /* 
* Rcurd uo 'à' Zo next multiplo of 'sisc , which must be a powcr of 2 
4 $7 
5 #defins sOUM-US!|a, size) (i;(al & (isizs)-1)) ? (1 € (la) | ((size)-1)!) : (a)! 


6 /* 

了 + Step to next socket addresa structure; 

& + if sa lan is ð, assume it is sizeof(u :ongl. 
9 


“/ 


10 #deranc NEXT_SAtap! ap = ISA *) V 

11 ((ca3dr t! ap + (ap-»sa len ? ROUNDUP(&p-»sa len, sizecf iu longl) : ^ 
12 sizsofíu longl)! 

13 void 


14 get rtadirs/int addrs, SA *sa, ZA **rti info) 


le int i; 

17 tor (i = 0; i < RTAX MAX: i44) ( 
16 if 'addrs & (1 ss i)! | 

19 rti info[i] = 8A: 

20 NEXT SAleal; 

21 ) alae 

22 rti info[i] = NULL; 

23 } 

24 ) 


librovie/gel riadars.c 


图 18-9 ”构造 指向 路 由 消息 中 各 个 套 接 字 地 址 结构 的 指针 数 4 
遍历 8 个 可 能 的 指针 


17-23 图 18-4 中 RTAX_MAX 值 为 8， 它 是 内 核 在 单个 路 由 消 轧 中 
能 够 返回 的 套 接 字 地 址 结构 的 最 大 数目 。 本 函数 中 的 循环 查看 图 18-4 
中 8 个 RTA_xxx 数 位 掩 码 常 值 中 的 每 一 个 ， 而 图 18-3 中 3 种 结构 的 
rtm_addrs、ifm_addrs 或 fam_addrs 成 员 都 用 于 返回 数位 掩 
码 。 如 果 某 位 被 置 ，rti_info 数 组 中 对 应 的 元 素 束 被 设置 为 指向 相 
dE 否则 该 数组 中 对 应 的 元 素 被 设置 为 空 指 


步 入 下 一 个 套 接 字 地 址 结构 


2-12 ” 套 接 字 地 址 结构 钙 可 变 长 度 的 ， 不 过 这 段 代码 假设 每 个 结 
构 都 有 一 个 指明 自身 长 度 的 sa_len 成 员 。 这 里 有 两 件 麻烦 事情 必须 
处 理 。 首 先 ， 网 络 掩 码 和 克隆 掩 码 这 两 个 掩 码 可 以 通过 sa_len 成 员 
值 为 0 的 套 接 字 地 址 结构 中 返回 ， 然 而 这 种 结构 实际 上 占用 一 个 


unsigned long 的 大 小 。 (TCPvV2 第 19 章 讨论 了 4.4BSD 路 由 表 的 克 
隆 特 性 。) 这 种 结构 值 表 示 所 有 位 全 为 0 的 掩 码 ， 我 们 早先 的 例子 中 把 
默认 路 径 这 样 的 网 络 掩 码 显示 成 .0。 其 次 ， 每 个 套 接 字 地 址 结构 可 在 
末尾 增添 填充 字 节 ， 使 得 下 一 个 结构 从 特定 的 边界 开始 ， 对 于 本 例子 
就 是 一 个 unsigned long 的 大 小 ( 壁 如 在 32 位 体系 结构 中 就 是 一 个 4 
字 节 的 边界 ) 。 尺 管 sockaddr_in 结 构 因 占据 16 个 字 节 而 不 需要 填 
充 ， 掩 码 却 往 往 会 在 末尾 出 现 填 充 字 广 。 


我 们 尚未 给 出 的 本 示例 程序 的 最 后 一 个 函数 是 图 18-10 中 的 
sock_masktop， 它 返回 可 通过 路 由 套 接 字 返回 的 那 两 种 掩 码 的 表达 
字符 串 。 捧 码 存 放 在 套 接 字 地 址 结构 中 。 掩 码 的 套 接 字 地 址 结构 其 
sa_family 成 员 没 有 定义 ， 但 是 对 于 32 位 的 IPv4 掩 码 其 sa_len 成 员 
可 能 取 值 0、5、6、7 或 8。 当 这 个 长 度 大 于 0 时 ， 真 正 的 掩 码 离 起 点 的 
偏 移 和 IPv4 地 址 在 sockaddr_in 结 构 中 离开 头 的 偏 移 一 样 ， 都 是 4 个 
字 节 (如 TCPv2 第 577 页 图 18-21 所 示 ) ， 也 就 是 通用 套 接 字 地 址 结构 
的 Ss_data[2] 成 员 。 
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1 include "unproste. i” 


libroute/sock masktop.c 


2 conot char * 
3 SOcX masktop(SA *sa, socklen t salen) 
€; i 


5 static char str [INETS ADDESTRLEN] ; 
6 unsigned char *ptr - &sa-»sa 3ata[2], 
7 if (sa-*sa len == D) 
5 return(*0,2.0.2"!; 
9 else if is&-2s5 len «= 5| 
10 snprint Ciscoe, sizeof (str), "10.0.0.0", totr); 
11 else if (sa->sa_ len == 6} 
12 snprintf(szr, siscof(str), "td.td.C.C", *pcr, *!pt-z41)]; 
13 else if (sa-ssa_len == 7! 
14 snprinrf(s-r, sizeofí(str), "*d.*d. *d o", ptr, *(prr«]], 
15 * (ptrtz))) 
16 else if !85-2833 len == 6} 
1" snprintf(s-r, sizeof(str), "&d.*d.8d.&z2", 
18 "ptr, *(ptrel), *(rtr42), *(ptr«3)]; 
19 elos 
20 enprintfí(szr. sizeof(str), "(unknown mask, len = td. family = $d)*, 


1 sa-»sa len, sa->sa f amily); 
PP retinnistr): 


libroutz'sock imasktor.c 


18-10 ”把 一 个 掩 码 的 值 转换 成 它 的 表达 格式 


7-21 如果 长 度 为 0， 隐 含 的 掩 码 就 是 .0。 如 果 长 度 为 5， 就 只 存 
放 32 位 掩 码 的 第 一 个 字 方 ， 其 余 3 个 字 贡 的 隐 含 值 为 0。 当 长 度 为 8 时 ， 
EIS PATS ARE ° 


本 例子 中 我 们 想 读 取 内 核 的 应 答 ， 因 为 应 答 中 含有 我 们 正在 查找 
的 信息 。 然 而 通常 情况 下 ，write 到 路 由 套 接 字 的 返回 值 会 告知 我 们 
发 送 给 内 核 命 令 是 否 执行 成 功 。 如 果 我 们 只 需要 知道 发 送 的 命令 是 否 
执行 成 功 ， 那 么 可 以 在 打开 路 由 套 接 字 之 后 立即 以 SHUT_RD 为 第 二 个 
参数 调用 shutdown， 以 防止 内 核发 送 应 答 。 举 例 来 说 ， 如 果 我 们 是 
在 删除 一 个 路 径 ， 那 么 write 返回 0 意味 着 成 功 ， 返 回 ESRCH 错 误 意 味 
着 内 核 找 不 到 这 个 路 径 〈TCPv2 第 608 页 ) 。 类 似 地 ， 当 增加 一 个 路 径 
时 ，write 返 回 EEXIST 错 误 意 味 着 与 这 个 路 径 一 致 的 路 由 表 项 已 经 
存在 。 在 图 18-6 的 例子 中 ， 如 果 给 定 目的 地 址 的 路 由 表 项 不 存在 CRX 
如 说 该 主机 没有 设置 默认 路 径 ) ，write 将 返回 一 个 ESRCH 错 误 。 


b! 


18.4 sysct1 操 作 


我 们 对 路 由 套 接 字 的 主要 兴趣 点 在 于 使 用 sysct1 函 数 检查 路 由 
表 和 接口 列表 。 创 建 路 由 套 接 字 (一 个 AF_ROUTE 域 的 原始 套 接 字 ) 
需要 超级 用 户 权 限 ， 然 而 使 用 sysct1 检 查 路 由 表 和 接口 列表 的 进程 
却 不 限 用 户 权 限 。 
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#include <sys/param.h> 
#include <sys/sysctl.h> 


int sysctl(int *name, u_int namelen, void *oldp, size_t *oldlenp, 


void *newp, size_t newlen); 


返回 : 者 成 功 则 为 


90， 知 出 鲁 则 为 -1 


这 个 函数 使 用 类 似 简单 网 络 管理 协议 (Simple Network 
Management Protocol, SNMP) 中 管理 信息 库 (management 
information base, MIB) 的 名 字 。TCPv1 第 25 章 详细 讨论 SNMP 和 它 的 
MIB。 这 些 名 字 是 分 层 结构 的 。 


name 参 数 是 指定 名 字 的 一 个 整数 数组 ，namelen 参 数 指定 该 数组 
中 的 元 素数 目 。 该 数组 中 的 第 一 个 元 素 指定 本 请 求 定 同 到 内 核 的 哪个 
子 系统 。 第 二 个 及 其 后 元 素 逐 次 细 化 指定 该 子 系统 的 某 个 部 分 。 图 18- 
11 展 示 了 这 样 的 分 层 排 列 ， 以 前 3 级 使 用 的 一 些 遂 值 作为 例子 。 


CTL_DEG',-S CTL EN CIL KEZN CTL MACHDEP CTL NET C7L USER  CTL VF&8 CTL_VM 
~ a P4 y P 
f 
/ 
/ 
a di Fi x ins 
AF INST AF LINK AF ROUTE APT JINSPZC 
一 Er x 


TR yf E E 
1PPROIO -CEP LIPPROTCO ICME 1P2ROTO -P IFPROTO TCF IPPROTG UDP 


Ab ee ae a I 


图 18-11 sysct1 名 字 的 分 层 排列 


为 了 获取 某 个 值 ，oldp 人 参数 指向 一 个 供 内 核 存 放 该 值 的 缓冲 区 。 
oldlenp 则 是 一 个 值 -结果 参数 : 函数 被 调用 时 ，oldlenp 指 回 的 值 指 定 该 
缓冲 区 的 大 小 ， 画 数 返 回 时 ， 该 值 给 出 内 核 存 放 在 该 缓冲 区 中 的 数据 
量 。 如 果 这 个 缓冲 区 不 够 大 ， 函 数 就 返回 ENOMEM 错 误 。 作 为 特例 ， 
oldp 可 以 是 一 个 空 指针 而 oldlenp 却 是 一 个 非 空 指针 ， 内 核 确定 这 样 的 
调用 应 该 返回 的 数据 量 ， 并 通过 oldlenp 返 回 这 个 大 小 。 


为 了 设置 某 个 新 值 ，newp 参 数 指 回 一 个 大 小 为 newlen 参 数值 的 组 
i - 。 如 果 不 准 备 指定 一 个 新 值 ， 那 么 newp 应 为 一 个 空 指针 ，mnewien 
MHO ° 


sysctl FAHA MERO T ARORA AS 
A. ARA BRAVE ^ ARRE ^ EES Ra o RAT 
感 兴趣 的 是 网 络 子 系统 ， 通 过 把 name 数 组 的 第 一 个 元 素 设 置 为 
CTL_NET 来 指定 。 《CTL_xxx 常 值 在 <sys/sysct1.h> 头 文件 中 定 
Me) 第 二 个 元 素 可 以 是 以 下 几 种 。 


。AF_INET: 获取 或 设置 影响 网 际 网 协议 的 变量 。 下 一 级 为 使 用 某 
个 IPPROTO_xxx 常 值 指定 的 具体 协议 。FreeBSD 5.0 在 这 一 级 提供 
了 大 约 75 个 变量 ， 用 于 控制 诸如 内 核 是 否 应 该 产生 ICMP 重 定向 、 
TCP 是 否 应 该 使 用 RFC 1323 选 项 、UDP 校 验 和 是 否 应 该 发 送 等 特 
性 。 我 们 将 在 本 节 靠 后 给 出 sysct1i 如 此 用 途 的 一 个 例子 。 

。AF_LINK: 获取 或 设置 链 路 层 信息 ， 壁 如 PPP 接 口 的 数目 。 

° AF ROUTE; 返回 路 由 表 或 接口 列表 的 信息 。 我 们 稍 候 讲 解 这 些 

e AF UNSPEC: 获取 或 设置 一 些 尽 接 字 层 变 量 ， 辟 如 套 接 字 发 送 或 
接收 缓冲 区 的 最 大 大 小 。 


” 当 name 数 组 的 第 二 个 元 素 为 AF_ROUTE 时 ， 第 三 个 元 素 (协议 
号 ) 总 是 为 0 (因为 AF_ROUTE 族 不 像 壁 如 说 AF_INET 族 那样 其 中 有 协 
议 ) ， 第 四 个 元 素 是 一 个 地 址 族 ， 第 五 和 第 六 级 指定 做 什么 。 图 18-12 
对 此 做 了 汇总 。 


返回 IPv4 路 由 表 Um 返回 IPv6 足 由 表 返回 接口 清单 
CTL NET 
As ROULE 
0 


namel] 


CTL NET 
AF ROUTE 
0 0 

3 AF INET As INET 

4 NET RT DUMP NzT RT FLAGS 
0 RIF LLINFO 


CTL NET 
As ROUTE 


AF INET6 
NE^ RT DUMP 
0 


NET RT IFLIST 
9 


图 18-12 sysct1 在 AF_ROUTE 域 返回 的 信息 


路 由 域 支持 3 种 操作 ， 由 mame[4] 指 定 。 (NET_RT_xxx 常 值 在 
<sys/socket .h> 头 文件 中 定义 。) 这 3 种 操作 返回 的 信息 通过 
sysct1 调 用 中 的 o1dp 指 针 返 回 。o1dp 指 向 的 缓冲 区 中 含有 可 变数 目 
的 RTM_xxx 消 息 (图 18-2) ° 


(TDNET_RT_DUMP 返 回 由 name[3] 指 定 的 地 址 族 的 路 由 表 。 如 果 
所 指定 的 地 址 族 为 0， 那 么 返回 所 有 地 址 族 的 路 由 表 。 
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路 由 表 作 为 可 变数 目的 RTM_GET 消 息 返 回 ， 每 个 消息 后 跟 最 多 4 
个 套 接 字 地 址 结构 : 本 路 由 表 项 的 目的 地 址 、 了 网关、 网 络 掩 码 和 克隆 
掩 码 。 我 们 在 图 18-5 右 侧 展 示 了 一 个 这 样 的 消息 ， 而 图 18-7 中 的 代码 
用 于 分 析 这 样 的 消息 。 相 比 直 接 读 写 路 由 套 接 字 的 操作 ，sysct1 操 
作 所 有 改动 仅仅 体现 在 内 核 通过 后 者 返回 一 个 或 多 个 RTM_GET 信 息 。 


(2) NET_RT_FLAGS 返 回 由 name[3] 指 定 的 地 址 族 的 路 由 表 ， 但 
是 仅 限 于 那些 所 带 标 志 (若干 个 RTF_xxx 常 值 的 逻辑 或 ) 与 由 
name[5] 指 定 的 标志 相 匹配 的 路 由 表 项 。 路 由 表 中 所 有 ARP 高 速 缓存 
表 项 均 设 置 了 RTF_LLINFO 标 志 位 。 


这 种 操作 的 信息 返回 格式 和 上 一 种 操作 的 一 致 。 


(3) NET_RT_IFLIST 返 回 所 有 已 配置 接口 的 信息 。 如 果 mname[5] 
不 为 0， 它 就 是 某 个 接口 的 索引 号 ， 于 是 仅仅 返回 该 接口 的 信息 。 (我 
们 将 在 18.6 节 讨论 接口 索引 。) 已 赋予 每 个 接口 的 所 有 地 址 也 同时 返 
回 ， 不 过 如 果 name[3] 不 为 0， 那 么 仅 限 于 返回 指定 地 址 族 的 地 址 。 


每 个 接口 的 返回 信息 包括 一 个 RTM_IFINF0O 消 息 和 后 跟 的 零 个 或 
多 个 RTM_NEWADDR 消 息 ， 其 中 每 个 RTM_NEWADDR 消 息 对 应 已 赋予 该 
接口 的 一 个 地 址 。 接 在 RTM_IFINF0O 消 息 首 部 之 后 的 是 一 个 数据 链 路 
套 接 字 地 址 结构 ， 接 在 每 个 RTM_NEWADDR 消 息 首部 之 后 的 则 是 最 多 3 
个 套 接 字 地 址 结构 : 接口 地 址 、 网 络 掩 码 和 广播 地 址 。 图 18-13 展 示 了 
这 两 个 消息 。 
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图 18-13 ”由 sysct1 的 CTL_NET/VAF_ROUTE/VNET_RT_IFLIST 命 令 返 回 的 信息 
例子 : 判断 UDP 校 验 和 是 否 开启 


下 面 提供 一 个 sysct1 的 简单 例子 ， 对 于 网 际 网 协议 检查 UDP 校 
验 和 是 否 开 启 。 有 些 UDP 应 用 程序 (如 BIND) 在 启动 时 检查 UDP 校 验 
和 是 否 已 经 开启 ， 若 没有 则 尝试 开启 。 当 然 开 启 诸如 此 类 的 特性 需要 
超级 用 户 权 限 ， 不 过 本 例子 仅仅 检查 这 个 特性 是 否 已 经 开启 。 图 18-14 
给 出 了 本 程序 。 


- ratiercheckdpsam.c 


1 finclu3e “unproute.h" 

2 #include «netinct /udp.h> 

3 #include <enetinet /ip_var.h> 

4 #include enctinct /udp var. i> /* tor ZD2CTL xxx constants */ 
$ int 


€ main(int argc, char **argv) 


z] 


B int mit'a), val; 

9 size t len; 

10 mib[O] = CIL NET; 

11 mib[1) = AF INT; 

12 mib[2] = TFPROTO IMP; 

13 mib[3] = UDPCTI, CHXCKSUM: 

14 len = sizeof (valt; 

15 Sysctl(mib, 4, &val, &len, NULL, 9); 
16 print= ("cds checksum flag: d\n", vali; 
l7 exi-i0) 

18 | 


rouic/chectaidpsum.c 


Ii 
Hl 


图 18-14 ”检查 UDP 校 验 和 是 


包含 系统 头 文件 


2~4 ”我 们 必须 包含 <netinet/udp_var.h> 头 文件 以 获得 
sysct1 的 UDP 常 值 定义 。 另 外 两 个 头 文件 是 本 头 文件 所 需 的 。 


调用 sysct1 


10-16 静态 分 配 一 个 4 个 元 素 的 整数 数组 ， 并 存放 相应 于 图 18- 
11 所 示 层 次 结构 的 各 个 常 值 。 既 然 仅 仅 获取 一 个 变量 的 值 而 不 是 给 它 
设置 新 值 ， 我 们 指定 sysct1 的 newp 参 数 为 一 个 空 指 针 ，mewlen 参 数 
为 0。oldp 指 向 一 个 我 们 提供 来 存放 结果 的 整数 变量 ，oldenp 指 癌 一 
ee 变量 的 大 小 。 我 们 显示 的 标志 将 为 0 
A 或 1 p ° 


498~ 
499 


18.5 get_ifi_infowR 


我 们 现在 返回 到 17.6 节 的 例子 : 作为 一 个 ifi_info 结 构 链 表 返 
回 所 有 在 工 〈 即 处 于 UP 状态 ) 的 接口 (图 17-5) 。prifinfo 程 序 保 
持 不 变 (图 17-6) ， 但 是 这 里 给 出 的 get_ifi_ info 函 数 是 使 用 
sysct1 实 现 的 版 本 ， 它 取代 图 17-7 中 使 用 的 SIOCGIFCONF ioctl 
实现 的 版 本 o 


我 们 首先 在 图 18-15 中 给 出 函数 net_rt_if1ist。 该 函数 以 
NET_RT_IFLIST 命 令 调 用 sysct1 返 回 指定 地 址 族 的 接口 列表 。 


Ebrawtenet_ri_iflisic 


1 #incluie “unproute, 21" 

2 char * 

3 nst_rt_itlict(int Eamily, int tlacs, size_t *lcnc; 
41 

5 | at mib[6] ; 

6 caar "buf; 

7 mib[0] = CTL NET; 

E mib[1] = AP ROUTE; 

9 mib[2] = ð; 

10 mib[3] - family: /* only addresses ot chis family */ 
11 mib[4] = NET_RT_IFLIST; 

12 mib[5] = flags; /* interface index cr 0 */ 
13 if (sysctlimib, 5, NULL, lenp, NULL, Q) < 0; 
14 return (NULL) ; 

15 i£ ( (buf = mallec(*lenp}) == NULL) 

16 return (ts); 

17 if (sysctlimib, 5, buf, lenp, NOLL, O} < 0) { 
18 free (buf) ; 

19 return (NULL) ; 

20 

ad return (buf); 

22 


Nibronteinel ri iflisi.c 


图 18-15 ”调用 sysct1 返 回 接口 列表 


7-14 如 图 18-12 所 示 ， 我 们 把 数组 mib 初 始 化 成 用 于 返回 接口 列 
表 以 及 每 个 接口 已 配置 的 指定 地 址 族 的 地 址 。 然 后 调用 sysct1 两 
次 。 第 一 次 调用 时 指定 第 三 个 参数 为 空 指针 ， 从 而 lenp 指 向 的 变量 中 
将 返回 存放 所 有 接口 信息 所 需 缓 冲 区 的 大 小 。 


15-21 动态 分 配 这 个 缓冲 区 并 再 次 调用 sysct1， 这 次 指定 第 
三 个 参数 为 指向 新 分 配 缓冲 区 的 一 个 指针 。 这 次 lenp 指 向 的 变量 将 返 
回 存 放 在 缓冲 区 中 的 信息 量 ， 而 这 个 变量 是 调用 者 分 配 的 。 指 疝 这 个 
缓冲 区 的 指针 则 作为 函数 返回 值 返回 给 调用 者 。 


500 


既然 路 由 表 的 大 小 和 接口 的 数目 可 能 在 两 次 sysct1 调 用 之 间 发 
生变 化 ， 第 一 次 调用 的 返回 值 实际 含 有 一 个 10% 的 余 量 因 了 于 (TCPv2 
第 639 一 640 页 ) 


图 18-16 给 出 了 get_ifi_info 函 数 的 前 半 部 分 。 


rotiefgel_if_infa.c 
1 #include "ugpifi.h' 


2 #inclnde "nnpraut eh" 

3 scruct ifi info * 

4 qct ifi info(:nt family, int doaliases) 

5 | 

6 int flags; 

了 char *but, *nex=, "lim; 

8 size_t len; 

9 struct if msghdr*ifm; 

10 souk ifa meagudr xi fam; 

11 struct sockaddr tsa, *rti info[RTAX MAX]; 

12 struct sockaddr dl *sdl; 

13 struct ifi infc *ifi, *ifisave, *ifihead, **ifipnext: 
14 buf s ret rt. if^ istrifamily, 0, alent; 

15 ifihead = NULL; 

16 izipnext = &ifihead; 

T lim - buf + len, 

18 for (next = Luf; next < lim; next += ifm-»ifu vszlen! { 

19 ifr = (struct if mschdr +*+) next: 

20 if ;ifm-»ifm type == 4IM LFIN SJ) 

21 if | i(flags = ifm »ifn flags! & IFF UT) == 0) 

22 oO Lue: /* ignore if interface noL up */ 
25 sa m (struct sockad?r *1 (itm 9 1}; 

24 ce- rtadárs(ifm-»ifm adárs, sa, rti info); 

25 it | isa = rti into[RTAX IFP], l- NULL! { 

26 ifi = Calloc(1, sizeoE!stzuct ifi infol); 

7 *ifipnext = ifi; /* prev points to this new one */ 
2f ifipnext. = &ifi-»ifi aext: /* ahr to next one goes here */ 
29 ifi--ifi_flegs = flags; 

x0 if ;sa-»sa family -- AF LINK) { 

31 cdl = (ctruct ccckaddr dl +; ea; 

32 ifi -i-i index = sdl »3dl index: 

35 if lsdl->sdl rlen > 0i 

34 snprintfíifi-»i^i name, IFT NAME, '$*5*, 
35 $dl-»s21 nlen, &sdl--sd1 2ata[90]]; 
ie else 

7 snprinttíifi »iti namc, IFI NAME, ‘index èd", 
30 sdl-2s3l :rdex),; 

39 if | (ifi-sifi_nien = sdl-»sdl ale3) > QI 
40 mericpyiifi-»ifi haddr, LLADDS ul), 

41 riniIFI HADOR, azdl-*sdl eien)); 
42 } 

45 } 


remece! iff info.c 


图 18-16 get ifi infoEZ&tBi p 
6-14 声明 局 部 变量 ， 然 后 调用 net_rt_if1ist 函 数 。 


17-19 for 循环 志 碍 由 sysct1 返 回 并 填写 到 缓冲 区 中 的 每 个 路 
由 消息 。 我 们 假定 消息 是 一 个 i1f_msghdr 结 构 ， 再 查看 其 ifm_type 


成 员 。 (注意 所 有 3 种 路 由 消息 结构 的 前 3 个 成 员 是 相同 的 ， 因 此 用 这 3 
种 结构 中 的 哪 一 种 来 查看 类 型 成 员 并 无 分 别 。) 


检查 接口 是 否 在 工作 


20-22 ” sysctl 已 为 每 个 接口 返回 一 个 RTM_IFINFO 结 构 。 如 
果 当 前 接口 不 在 工作 (处 于 DOWN 状 态 ) ， 那 就 忽略 它 。 


判断 存在 哪些 套 接 字 地 址 结构 


23-24 ”sa 指向 if_msghdr 结 构 之 后 的 第 一 个 套 接 字 地 址 结 
构 。get_rtaddrs 函 数 将 根据 出 现 哪些 套 接 字 地 址 结构 初始 化 
rti info 数 组 。 


处 理 接口 名 字 


25-43 ”如果 出 现 携带 接口 名 字 的 套 接 字 地 址 结构 ， 那 就 动态 分 
配 一 个 ifi_info 结 构 并 存放 接口 标志 。 这 个 套 接 字 地 址 结构 的 预期 
地 址 族 为 AF_LINK， 表 示 它 是 一 个 数据 链 路 套 接 字 地 址 结构 。 我 们 把 
其 中 的 接口 索引 存放 到 ifi_index 成 员 。 如 果 sdl_nlen 成 员 不 为 
0， 那 就 把 接口 名 字 复 制 到 ifi_info 结 构 ; 否则 把 接口 索引 字符 串 作 
为 接口 名 字 存 放 。 如 果 sdl_alen 成 员 不 为 0， 那 就 把 硬件 地 址 ( 壁 如 
以 太 网 地 址 ) 复制 到 ifi_info 结 构 ， 其 长 度 则 在 ifi_hlen 中 返 
[n] o 


图 18-17 给 出 了 get_ifi_info 函 数 的 后 半 部 分 ， 用 于 返回 当前 接 
口 的 IP 地 址 。 


roulegel tft mfoc 


44 ) else it (:tm-sitm type -- RTN NEWADDR) < 

45 if (ifi-»ifi addr) {  /* already Lave an LP addr fcr i/f */ 
gë if (doaliases -- 6; 

a? zontinue; 

48 /* we have a new IP addr tor cxioting inzertace */ 
49 ifisavs = ifi; 

£0 ifi - calloc(l, sizsof;struct ifi info)); 

bl *ifiznexz = ifi; /* prev zoints to tkis new cne */ 
52 ifipnext - &ifi->iži next; /* ptr zo next ore goes nere */ 
53 ifi-s:fi flags = itisave->ifi_flegs; 

54 ifi->ifi_index = ifisava->ifi_index, 

as ifi-sifi Thien = ifisave-»ifi hien: 

56 neue: zy Fi ->ifi nama, if aave->ifi_nam, T*1 NAME) 1 

57 mency(if!-»ifi Thadi t, ifisave->i"i bairlr, TFT HADDR); 
58 J ^ i 

s9 ifam = (struct ifs_mschdr ^) next: 

EQ ga - [struct sockaddr *) (ifam + 1); 

ez get rtaddrs/ifam-»ifawm addro, sa, rti_info) ; 

€2 if ( [sa = rti infolRTAX IPAl!| !- NULL) { 

FA ifi-s-fi adir s Celloc{1, sa-ssa lzn); 

64 memecy (ifi->ifi addr, ea, 8a-»8&a len); 

65 ) 

66 if ((flags & IFF_BROADCAST)a&(sa = rtbi_info‘RTAX_BRD)) ! -NI:)[ 
éT ifi-» fi brdaddr = Callcc(1, sa->ssa_len); 

Eg memcsy(iti->iti brdaddr, sa, sa->sa len); 

c9 ) 

70 if ((flags & IFF_POINTOFOINT) && 

7i (sa = rti info(RTAX BRD]] != NULL) : 

ua ifi->:fi_detaddr = talleoc(1, &a-»sa len]; 

73 memcpy (i€i->ifi_dstaddr, sa, sa >sa_len); 

54 ) 

75 ) else 

76 err quit (".mexpected message type td", -fm-»ifm type; 

77 i 

78 /* "ifihead” points to the first structure in the linked list */ 

79 returnlifihead); /* por to first struczurze in linked list */ 
EO 


romege ii infot 


图 18-17 get_ifi_infoksun EB 
返回 IP 地 址 


44-65 syscti 已 为 当前 接口 每 个 已 配置 地 址 返回 一 
RTM_NEWADDR 消 息 ， 包 括 主 地 址 和 所 有 别名 地 址 。 如 果 当 前 接口 在 
info 结 构 中 的 了 下地 址 已 经 填写 ， 我 们 束 知 道 当 前 处 理 的 是 一 

个 别名 地 址 。 这 种 情况 下 如 果 调 用 者 想 要 别名 地 址 ， 我 们 就 得 再 分 配 
ELE 结构 ， 复 制 已 经 填写 的 字段 ， 然 后 填 入 当前 处 理 的 别 
A HEHE e 


返回 广播 地 址 和 目的 地 址 


66~75 ”如 采 当 前 接口 文 持 广播 ， 那 惑 返回 其 广播 地 址 ， 如 有 果 当 
前 接口 是 点 对 点 接口 ， 那 惑 返回 其 目的 地 址 。 


501~ 
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18.6 FOB E385 WR 


RFC 3493 [Gilligan et al. 2003] 定义 了 4 个 处 理 接 口 名 字 和 索引 的 
函数 。 这 4 个 函数 用 于 需要 描述 一 个 接口 的 场合 ， 并 且 是 为 ITPv6 APISI 
入 的 ， 不 过 也 适用 于 IPv4 API。 我 们 将 在 第 21 章 介绍 IPv6 多 播 和 在 第 
27 章 介绍 IPv6 选 项 时 讲解 它们 的 用 途 。 这 里 存在 一 个 基本 概念 ， 即 每 
oF ig 一 个 唯一 的 名 字 和 一 个 唯一 的 正 值 索 引 (OM AER 


#include «net/if.h» 
unsigned int if_nametoindex(const char *ifname); 


返回 : 若 成 功 则 为 正 的 接口 


索引 ， 若 出 错 则 为 9 


char *if_indextoname(unsigned int ifindex, char *ifname); 


返回 : 若 成 功 则 为 指向 接口 名 字 的 # 


针 ， 若 出 错 则 为 NULL 


struct if nameindex *if nameindex(void); 


返回 : ZELDA RES; 


普 则 为 NULL 


void if_freenameindex(struct if_nameindex *ptr); 


if_nametoindex 返 回 名 字 为 加 ame 的 接口 的 索引 。 
if_indextoname 返 回 索引 为 访 ndex 的 接口 的 名 字 。i 加 ame 参 数 指向 
一 个 大 小 为 TFNAMSIZ 的 缓冲 区 《该 常 值 在 <netV/if .h> 头 文件 中 定 
义 ， 如 图 17-2 所 示 ) ， 调 用 者 必须 分 配 这 个 缓冲 区 以 保存 结果 ， 调 用 
成 功 时 这 个 指针 也 是 函数 的 返回 值 。 


if_nameindex 返 回 一 个 指向 if_nameindex 结 构 数组 的 指针 ， 
该 结构 定义 如 下 。 


struct if_nameindex { 
unsigned int if_index; 4[T04.4:25 i247 
char *if name; /* null terminated name: "leo", ... 


*/ 
}; 

该 数组 最 后 一 个 元 素 的 1f_index 成 员 为 0，if_name 成 员 为 空 指 
针 。 该 数组 本 身 以 及 数组 中 各 个 元 素 指 回 的 名 字 所 用 的 内 存 空 间 由 该 
函数 动态 获取 ， 人 然后 由 if_freenameindex 函 数 归 还 给 系统 。 

下 面 使 用 路 由 套 接 字 给 出 这 4 个 函数 的 一 个 实现 。 
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18.6.1 if nametoindexER?2A 


18-1824 H B9 if nametoindex AR e 


TBproriectr nemetoindex.c 


1 #incluide "unpifi. n" 

2 finclude "urprocte.n' 

3 unsigned irt 

4 i£ namerzoirdex(ccnst char *name) 


5: 

6 unsigned int idx, narelen; 

7 enar ‘but, "next, “Lim; 

8 sizs 2 len; 

a struct if _mschir *ifm; 

1U struct sockacdr “sa, *rti info[k7AX MAX]; 

1i struct sockacdr 3. *sdl; 

12 i£ ( (buf = ret rt iflis-1!0, G, &leanl! == NULL) 

13 rerurn (0) ; 

14 nanalen ~ strien(nama]; 

15 lin = buf + len: 

16 fer ‘next = buf: next < lim; next += ifm-sifmmsglen) | 
17 ifm = (serset if msgh?r *) next; 

1g it (izm-»itn type == RTM IFINFO! f 

19 sa - [struct sockaddr *) (ifm + 1'; 

20 get rtaddraíifm-»itm addrs, sa, rti info); 
2l if ( {ea = Yi info[RTAX IF2]! t= NULL) ( 

z2 it (sa->sa_tamily =» AF LINX) | 

23 sdl - (struct Sockacdr dl *) ss; 

24 if (sdl-~sdl_nlen == namelen 

25 && etrneomp(&kse3l.-»5dl data[l), rare, 
z6 tdl »sdl nlen) == 0) { 
27 idx = s:-»sdl index; — /* save before free!! */ 
28 free (buf) ; 

" returr. (idx) ; 

20 } 

a ) 

32 ) 

33 ) 

24 i 

35 fresíicurf); 

36 return i0); /* no match for name */ 
2^" 


libromie/if. viometoindex.c 


图 18-18 ”给 定 接口 名 字 返 回 其 接口 索引 


获取 接口 列表 

12-13 我们 的 net_rt_if1ist 函 数 返 回 接口 列表 e 
只 处 理 RTM_IFINF0 消 息 

17-30 ”处理 缓冲 区 中 的 消息 (图 18-13) ， 仅 仅 查 找 


RTM IFINFOJH/e #LEI— al get_ rtaddrs 函 数 设 置 指 同 各 
个 套 接 字 地 址 结构 的 指针 ; 如 果 存 在 一 个 接口 名 字 结 构 〈 它 由 


rti info [RTAX IFP| 指针 所 指 ) ， 那 就 比较 其 中 的 接口 名 字 和 
调用 者 指定 的 参数 。 


18.6.2 if indextonameH2X 


下 一 个 函数 ifindextoname 如 图 18-19 所 示 。 


lbronieif fadextonante.c 


1 #incluie "urpifi.u" 


2 finclude "urproute.2n' 

3 char * 

4 if indextorame(unsigned int idx, char *name! 

5 1 

5 enar "buf, tnext, "lim; 

7 siss = dlen; 

8 S-zrac- if mschzr "ifr; 

9 s-rJuc- sockaddr *sa, *rti_info[RTAX_MAX] ; 

10 Strict sockaddr dl *adl; 

1i if ( (buf - net rt iflisc(0, idx, &len)! — NULL) 

12 return (MULL) ; 

13 lim = buf + len: 

14 fcr (next = buf; nex- c lim; next += ifm-»ifm mszlen! { 
15 im s Ost rac! if_iasghdr *) pex: 

16 i= (ifm-»ifm type == R7M IFIN*O) | 

i Sa = [struct sockaddr *) (ifm + 1); 

14 get_rtaddrsiitm->ifm_addrs, ea, rti into); 

19 i= [ {sa = rti into[RTAX IF2]) != NULL) { 

20 if (5a »5a family == AP LINX) | 

21 sdl = (s-ruct scckaddr dl *' sa; 

22 if !adl-»sdl index == idx) | 

23 inl. ster a mi 1l TFNAMETZ - 1, sdl-»9 nlen); 
25 strncoy (name, sdl->scl data, slen); 
25 name[sien] = 0; /* null terminate */ 
i6 zree(ruf]; 

27 return [ramre!; 

28 } 

29 } 

30 ) 

31 ) 

32 ] 

33 freaibut); 

34 return (NULL); /* no match for index */ 

35-3 
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图 18-19 给 定 接口 索引 返回 其 接口 名 字 


本 函数 和 前 一 个 函数 儿 乎 相同 ， 不 过 这 里 我 们 不 是 查找 接口 名 
字 ， 而 是 比较 接口 索引 和 由 调用 者 指定 的 参数 。 男 外 ， 调 用 
net_rt_if1ist 函 数 指定 的 第 二 个 参数 是 期 望 的 索引 ， 因 此 结果 应 


该 只 含有 期 望 接口 的 信息 。 找 到 匹配 的 接口 后 ， 复 制 并 返回 以 空 字符 
结尾 的 接口 名 字 。 
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18.6.3 if nameindexWA 


下 一 个 函数 if_nameindex 返 回 一 个 if_nameindex 结 构 数组 ， 
其 中 含有 所 有 的 接口 名 字 和 索引 对 ， 如 图 18-20 所 示 。 


Fert seuneindex.c 


1 &include “unpifi ii" 

z finclude "urproute.2n' 

3 struct if rameindex * 

4 if nameindexivc-d) 

eR 

6 caar  *buf, next, “Lim; 

7 size z len; 

E] struct if msghir vif"; 

a stract sockaddr "sa, *rti_info[RTAX MAX]; 

10 otract sockacdr dl *sdl; 

11 struct if nameindex “result, *:fptr. 

12 chat *nampt rz 

13 iE ( (buf = ret rt iflis=(0, C, £le3]! == NULL) 

14 return (HULL) ; 

15 if ( (result = malloc;len))! == NULL) /* cvares-imate */ 
16 return (NULL) ; 

17 ifptr = result; 

1a manate = (cher 4) result + Jer: /^ panes staro ab emi of buffer */ 
19 lim = buf + ler: 

20 fcr ‘next = buf; nex- < lim; next += ifm-»ifu mszlen! { 

21 itm = (struct if msjhór 4) next; 

a it (ifm-»ifn type -- RTM IFINFO! | 

FE oa = ;ztruct cockaddr *) (itm :» 1); 

£4 get rtaddrsiifm--ifm addrs, sa, rti into); 

25 i= ( isa = rri info[RTAX rF2]) != NULL) ( 

26 if (sa->sa_family -- AF LINK) | 

dj cdl = (Struct o2ckaddr dl *; o2: 

28 navptr -~ sdl--sdl_nlen + 1; 

29 strncpyinemptr. &sdl-»sd] data[0], sd1-»sd! nlen]; 
40 natptr(edl->sdl nlen] = 0; /* null tertinate */ 
31 itptr >it nàmc = nàmp-r; 

32 ifptr-»if index = sál-»sdl index; 

33 ifptr-e; 

44 } 

35 } 

36 ) 

av } 

38 iEptr-2if rame = NULL; /* mark end of array of structs */ 
39 ifptr-»if incex - D; 

30 fresibuz); 

41 ratarniresult;; /* caller must free() this when done */ 
42 ` 
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图 18-20 返回 所 有 的 接口 名 字 和 索引 
获取 接口 列表 ， 为 结果 分 配 空间 


13-18 调用 我 们 的 net_rt_iflist 画 数 返 回 接口 列表 。 我 们 
还 把 由 这 个 函数 返回 的 大 小 作为 分 配 一 个 缓冲 区 的 大 小 ， 该 缓冲 区 用 
于 存放 将 返回 给 调用 者 的 if_nameindex 结 构 数 组 。 这 是 一 个 过 高 的 


估计 ， 不 过 总 比 遍历 两 趟 接口 列表 简单 :一 趟 是 为 了 统计 接口 的 数 日 
和 各 个 名 字 总 的 大 小 ， 另 一 趟 是 为 了 填写 信息 。 我 们 从 该 缓冲 区 的 开 
LERT CEM) 构建 if_nameindex 数 组 ， 从 缓冲 区 末尾 往 后 Ux 

向 ) 存放 接口 名 字 


只 处 理 RTM_IFINFO 消 息 


22-36 ”人 授 历 所 有 的 消息 ， 从 中 查找 各 个 RTM_INFO 消 恩 及 后 跟 
Mu a 。 把 接口 名 字 和 索引 存放 到 正在 构建 的 数 
组 


终止 数组 


38-39 把 数组 最 后 一 个 元 素 的 if_name 置 为 空 ，if_index 置 
为 0。 


18.6.4 if freenameindex žit 


Ba — T AAA 18-21, "CEEROCyJif nameindexzZifgZXH 
及 其 中 所 含 的 名 字 分 配 的 内 存 空 间 。 


librontesif_nauneindex.c 
14 if zreenaneindex(struot if nrareindex *ptr; 
4 
46 f -ee (ptr): 
17 


libvonieAf nameindex.c 


图 18-21 释放 由 if_nameindex 分 配 的 内 存 空 间 


本 函数 极其 简单 ， 因 为 在 if_nameindex 函 数 中 我 们 把 结构 数组 
和 名 字 存 放 在 同一 个 缓冲 区 内 。 要 是 我 们 在 if_nameindex 函 数 中 对 
每 个 名 字 都 调用 malloc， 那 么 为 了 释放 内 存 空 间 ， 我 们 将 不 得 不 遍 
历 整 个 数组 ， 先 释放 每 个 名 字 的 内 存 空间 ， 再 释放 数组 本 身 。 


18.7 ”小结 


我 们 在 本 书 中 最 后 直到 的 套 接 字 地 址 结构 是 sockaddr_d1l1 结 
构 ， 它 是 一 种 可 变 长 度 的 数据 链 路 套 接 字 地 址 结构 。 源 目 Berkeley 的 
内 核 把 它们 和 接口 联系 起 来 ， 以 便 返 回 接口 索引 、 名 字 和 硬件 地 址 。 


508 
进程 可 以 写 到 路 由 套 接 字 的 消 上 息 有 5 个 类 型 ， 内 核 可 通过 路 由 套 接 
字 异 步 返 回 的 消 有 息 有 15 个 类 型 。 我 们 给 出 了 这 样 一 个 例子 :进程 向 内 
核 请 求 关于 一 个 路 由 表 项 的 信息 ， 内 核 作 为 啊 应 给 出 所 有 的 细节 信 
思 。 这 些 内 核 啊 应 请 轧 含 有 最 多 8 个 确 接 字 地 址 结构 ， 我 们 必须 分 析 这 
些 消息 以 获取 其 中 的 每 条 信息 。 


sysct1 芳 数 是 获取 和 设置 操作 系统 参数 的 一 个 通用 方法 。 我 们 
所 关注 的 sysct1 操 作 包 括 : 


。 倾 泻 出 接口 列表 ， 
。 倾 泻 出 路 由 表 ; 
+ HUGH ARP EVER 。 


IPv6 要 求 对 套 接 字 API 实 施 的 相关 改动 包括 在 接口 名 字 和 接口 索引 
之 间 进 行 映 射 的 4 个 函数 。 每 个 接口 都 被 赋予 一 个 唯一 的 正 值 索引 。 源 
自 Berkeley 的 实现 已 经 把 索引 和 每 个 接口 联系 在 一 起 ， 因 此 我 们 可 以 
很 容易 地 使 用 Sysct1 实 现 这 些 函 数 。 


习题 


18.1 对 于 一 个 名 为 eth10 且 链 路 层 地 址 是 一 个 64 位 IEEE EUI-64 
地 址 的 接口 而 言 ， 你 预期 它 的 数据 链 路 套 接 字 地 址 结构 中 的 sdl_len 
成 员 会 是 什么 ? 


18.2 ”图 18-6 中 若 在 调用 write 之 前 禁止 SO_USELOOPBACK 套 接 
字 选 项 ， 将 会 发 生 什 么 ? 
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@ 第 3 版 原文 仅仅 在 图 18-2 中 新 增 了 RTM_DELMADDR (多 播 地 址 正 被 删 
离 接口 ) 、RTM_IFANNOUNCE (接口 正 被 增 至 或 删 离 系 统 ) ` 
RTM_NEWMADDR (接口 正在 加 入 多 播 地 址 ) 3 个 路 由 消息 ， 既 没有 更 
新 正文 《仍然 说 共有 12 个 路 由 消息 ) ， 也 没有 任何 解释 (包括 在 其 他 
章节 中 ) 。 这 种 不 一 致 现象 表现 在 新 作者 只 替换 Stevens 先 生 在 第 2 版 
给 出 的 图 表 、 程 序 代码 和 程序 运行 例子 ， 而 很 少 甚 至 根本 不 在 正文 、 
习题 和 习题 答案 中 做 相应 的 调整 ， 个 别 程序 运行 例子 甚至 有 算 改 嫌 
疑 ， 而 不 是 直接 取 自 程序 运行 结果 (不 排除 排版 差错 ) 。 对 于 第 3 版 原 
文中 存在 的 这 些 问题 ， 译 者 已 尽 可 能 地 予以 订正 。 译 者 注 


第 19 章 ” 密 钥 管理 套 接 字 


19.1 概述 


” 随 着 IP 安 全 体系 结构 (IPsec， 见 RFC 2401 [Kent and Atkinson 
] ) 的 引入 ， 私 钥 体 系 加 密 和 认证 密 钥 的 管理 越 来 越 需要 一 套 标准 的 
机 制 。RFC 2367 [McDonald, Metz, and Phan 1998] 介绍 了 一 个 通用 密 
钥 管理 API， 可 用 于 IPsec 和 其 他 网 络 安全 服务 。 与 路 由 域 套 接 字 (第 
18%) 类 似 ， 该 API 也 创建 了 一 个 新 的 协议 族 即 PF_KEY 域 。 在 这 个 
钥 管 理 域 中 ， 唯 一 支持 的 一 种 套 接 字 是 原始 套 接 字 。 


正如 4.2 节 中 所 述 ， 在 大 多 数 系统 上 常 值 AF_KEY 将 被 定义 成 与 
PF_KEY 有 相同 的 值 。 然 而 RFC 2367 相 当 明 确 地 认为 密 钥 管理 套 接 字 
必须 使 用 PF_KEY 这 个 常 值 。 


打开 原始 密 钥 管理 套 接 字 需要 特权 。 在 特权 按 需 分 割 的 系统 上 ， 
打开 密 钥 管理 套 接 字 这 样 的 操作 必须 目 有 一 个 单独 的 特权 。 在 普通 的 
Unix 系 统 上 ， 蜜 钥 管 理 套 接 字 仅 限 超 级 用 户 有 打开 权限 。 


IPsec 基于 安全 关联 (security association, SA) 为 分 组 提供 安全 服 
务 。SA 描 述 了 源 地 址 与 目的 地 址 〈 加 上 可 选 的 传输 协议 和 端口 ) HL 
制 《例如 认证 ) 以 及 密 钥 素材 的 组 合 。 单 个 分 组 交通 流 上 每 个 方向 都 
可 以 应 用 不 止 一 个 SA (例如 一 个 用 于 认证 ， 一 个 用 于 加 密 ) 。 存 放 在 
一 个 系统 中 的 所 有 SA 构成 的 集合 称 为 安全 关联 数据 库 (security 


association database, SADB) 


一 个 系统 的 SADB 可 能 用 于 IPsec 以 外 的 场合 ， 举 例 来 说 ， 
OSPFv2、RIPv2、RSVP、Mobile-IP 等 在 SADB 中 也 可 能 有 各 自 的 表 
项 。 据 此 PF_KEY 套 接 字 不 仅 限 IPsec 使 用 。 
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IPsec 还 需要 一 个 安全 策略 数据 库 (security policy database, 
SPDB) 。SPDB 描 述 分 组 流通 的 需求 ， 例 如 ， 主 机 A 和 主机 B 之 间 的 分 


组 流通 必须 使 用 IPsec AH 认 证 ， 未 经 认证 的 一 律 被 丢弃 。SADB 描 述 如 
何 执行 所 需 的 安全 步骤 ， 例 如 ， 假 设 主 机 A 和 主机 B 之 间 的 分 组 流通 按 
照 策 略 在 使 用 IPsec AH，SADB 就 含有 所 用 的 算法 和 密 钥 。 不 扯 的 是 ， 
SPDB 没 有 标准 的 维护 机 制 。 尽 管 PF_KEY 可 以 维护 SADB， 对 SPDB 却 
无 能 为 力 。KAME 的 IPsec 实 现 使 用 PF_KEY 的 扩展 类 型 来 维护 SPDB， 
不 过 这 种 做 法 没有 标准 可 循 。 


密 钥 管理 套 接 字 上 支持 3 种 类 型 的 操作 。 


(1) 通过 写 出 到 密 钥 管理 僚 接 字 ， 进 程 可 以 往 内 核 以 及 打开 着 密 钥 
管理 套 接 字 的 所 有 其 他 进程 发 送 消息 。SADB 表 项 的 增加 和 删除 采用 
这 种 操作 实现 ， 诸 如 OSPFv2 等 目 行 保障 安全 的 进程 也 采用 这 种 操作 从 
某 个 密 钥 管理 守护 进程 请 求 密 钥 。 


(2) 通过 从 密 钥 管理 套 接 字 读 入 ， 进 程 可 以 目 内 核 (或 其 他 进程 ) 
接收 请 妃 。 内 核 可 以 采用 这 种 操作 请 求 某 个 密 角 管理 守护 进程 为 依照 
策略 需 受 保护 的 一 个 新 的 TCP 会 话 安 逆 一 个 SA 。 


(3) 进程 可 以 往 内 核发 送 一 个 倾泻 (dumping) 请 求 消息 ， 内 核 作 
ge 出 当前 的 SADB。 这 是 一 个 调试 功能 ， 并 非 所 有 系统 上 都 
— EHE [e] 


19.2 BAS 


ZERBUS SHE: BES PSA SAIS EAS ES, 19-1 
所 示 。 每 个 消息 可 能 后 跟 各 种 扩展 (extention) ， 取 决 于 可 提供 的 或 
所 请 求 的 额外 信息 。 所 有 这 些 相 天 结构 都 定义 在 头 文件 
<net/pfkeyv2.h> 中 。 每 个 消息 和 扩 展 都 是 64 位 对 齐 的 ， 长 度 是 8 字 
万 的 整数 倍 。 所 有 的 长 度 字 段 均 以 64 位 为 单位 ， 也 就 是 说 长 度 为 意味 
着 8 个 字 节 。 数 据 部 分 不 是 恰好 处 于 某 个 64 位 边界 的 扩展 必须 填充 到 下 
一 个 64 位 边界 。 填 充 字 太 的 具体 值 没 有 定义 。 


struct sadb mq { 


u inte t gacb msg vers:on; /* PF KEY V2 */ 

u ince t gacb mzq type; /* cee Fiqure 19.2 */ 

u_int&é t sacbh meq crrno; /* error indication */ 

u intE t cacb meq satyps; /* eee Figure 19.3 */ 

u intl6 © sadb msa3 1c2; /* lensth of hoadcr + extension / 8 */ 

u intlé t cadb moa recervod; /* zero cn tranewiz, ignored on receive */ 
u int22 + sodb ms Ecg; /* sequence nurbcr */ 

u inc22 t cadb men vid; /* procece ID sf scurce or dest */ 


h 


图 19-1 EHE PETH EE UD 


sadb_msg_type 成 员 确定 本 消息 是 图 19-2 列 出 的 10 个 密 钥 管 理 
消息 类 型 中 的 哪 一 个 。 每 个 sadb_msg 首 部 将 后 跟 零 个 或 多 个 扩展 。 
大 多 数 消 忌 类 型 都 有 必需 的 和 可 选 的 扩展 ， 我 们 将 在 讲解 每 个 消息 类 
这 些 。 图 19-3 列 出 了 16 个 扩展 类 型 以 及 定义 各 个 扩展 的 结构 

"E^ JR o 


消息 类 型 | 去 往 内 核 ? | KAAR? 
SAD* ACCUTSF 请 求 创 建 一 个 SADB 表 项 
SADE ADT . 5 1-48 PY SADB KTI 
SADS_DELETS ò e HER SADB R In 
SADS DUMP . ° is sADB GHA) 
SADE EXPIRE * 通气 ! 森 个 SADB 类 项 已 经 期 满 
SADS FLUSH " e pase 4^ SADB 
SADE GET o e 3kUC— ASADBEK IN 
SADS GETSPI . = 分 本 一 个 用 于 刻 建 SADB 志 项 的 SP] 
SADS REGISTER a 注册 成 sApR_ACQU-RS 的 应 答 者 
SADS UPLATS e » 更 改 个 不 完 名 的 SADB 表 项 


扩展 首部 类 型 
SADB EXT ADDRESS DST 
SADB EXT ADDRESS PROXY 
SADR EXT ADDRESS SRC 
SADD EXT IDENTITY DST 
SADR EXT TDENTTTY SRC 
SADD EXT KEY AUTI: 
SADR EXT KEY ENCRYPT 
SADD EXT LIFETIMZ CURRENT 
SADR EXT LIFFTTMS HARD 
SADB EXT LIFETIME SOFT 


ZADB EXT PROPCSAL 


钥 管 理 套 接 字 交 换 的 消息 类 型 


SA E fith hE 
SA 代理 地 址 

SA 源 地 址 

目的 身份 

Vit 9] 

hus 254 

SA 当前 生命 期 
SAE d ER a 
SAE dr te 32 63] 
得 到 提议 的 情形 


sadb_address 
sadb_address 
sadb address 


sadb_ident 


sadb_lifetime 
sadb lifetime 
sadb lifetime 
sadb prep 


SADB_EXT_SA 
SADB EXT SENSITIVITY 


SADB EXT SPIRANSE sadb spirange 


可 接受 的 SPl 住 范围 
得 到 支持 的 认证 算法 
得 到 支持 的 如 密 算 法 


SADB EXT SUPPCRTEL AUTH sadb supported 


SADR EXT SUPPCRTET. ENCRYPT sadb_supported 


[d19-3 ”PF_KEY 扩 展 类 型 


我 们 搂 下 来 给 出 一 些 例子 ， 并 展示 通过 密 钥 管理 套 接 字 执 行 的 寿 
TE LPR EBT RAE AD EE o 


19.3 ” 倾 海安 全 关联 数据 库 


进程 使 用 SADB_DUMP 消 息 倾泻 当前 SADB。 它 是 最 简单 的 密 钥 管 
理 消息 ， 不 需要 任何 扩展 ， 单 纯 是 16 字 节 的 sadb_msg 首 部 。 一 个 进 
程 通 过 某 个 密 钥 管理 套 接 字 发 送 一 个 SADB_DUMP 消 息 到 内 核 后 ， 内 核 
通过 同一 个 套 接 字 响应 以 一 系列 SADB_DUMP 消 息 ， 每 个 消息 对 应 一 个 
es 。 这 个 列表 的 末尾 由 sadb_msg_seq 成 员 值 为 0 的 一 个 消息 
HZ ° 


通过 把 请 求 消息 的 sadb_msg_satype 成 员 设 置 为 图 19-3 给 出 的 
某 个 确定 值 ， 进 程 可 限制 SA 的 类 型 。 若 该 成 员 的 值 为 非 确 定 的 
SADB_SATYPE_UNSPEC 常 值 则 SADB 中 的 所 有 SA 均 返 回 。 并 非 所 有 
系统 都 支持 全 部 SA 类 型 。KAME 实 现 仅仅 支持 IPsec 的 两 类 SA 

(SADB_SATYPE_AH 和 SADB_SATYPE_ESP) ， 因 此 要 是 试图 倾泻 
SADB_SATYPE_RIPV2 类 型 的 SA， 将 返回 EINVAL 错 误 。 如 果 SADB 
中 没有 所 请 求 确定 类 型 的 SA， 那 么 将 返回 ENOENT 错 误 。 


安全 关联 类 型 
SADB_SATYPE_AH IPsec it 

SADB SATYPE ESP [Psec zc 4-72 fup | 2E 
SADB SATYPE MIP 可 移动 IP 认 证 
SADB SATYPE OSPFV2 OSPFv2 认 证 

SADB SATYPE RIPV2 RIPv2 认 证 


SADB SATYPE RSVP RSVP 认 证 


SADB SATYPE UNSPECIFIED He 指 HH . (X bi 于 请 EH y n a 


图 19-4 SAH! 


512~ 
514 


19-5 给 出 了 用 于 倾泻 SADB 的 程序 。 


Keofdump.c 


1 void 

2 sadb_dumpiint typz) 

3 ( 

a int EN 

s char ruf (4096); 

6 struct sadc meg meq; 

7 int gozeot; 

8 S = Socket (PE XEY, BOCK RAW, LF KZY V2); 
9 /* Build and write SADB_DUMP request */ 
10 bzeral&meg, sizeof (msg)); 

11 msy.sadb msg version = PF KEY V2; 

ne msg.cach msg type =- SADE LUMP; 

3 msq.cadb_msq_satype = typo: 


14 msg.sacb msg len = sizesž (msg) / 3; 
15 msg.raih mag pid = getpid(!; 
1€ print=(*tending dump meseage:\n"); 


7 p-int seach nsg(&msq, sizesf (msq)); 

16 W-ite(s, &msg, sizeotimsg)!; 

19 pzint?(*NuMessages returned: 21%); 

zo /* Read and print SADB DUMP replies until dore */ 
21 gotest = 0; 

22 while (goteof -- 0) | 

23 int maglen; 

24 atruct sadb meg *msop; 

25 waglen = Readis, &but, 3igzcof(bufi!): 

26 msgp = {struct sadb msg *l&buf; 

27 prin. sadb msy (nsgp, ws ler) ; 

28 if irsgp->sadb msz seq == 9) 

29 gozeof - 1; 

30 ) 

31 close (Ss); 

32 } 

32 ant 

34 main(int argc, chaz **argv) 

a5 ( 

36 int satvpe = SADE SATYPE INSPEC; 

7 int or 

36 opterr = 0; /* don't want getcpt!| writing tc stderr */ 
39 while ( (c = getop-largc. argv, "t:")) 1= --) 4 
ao switch ic) { 

41 cape 't': 

42 if ‘(satype = getsatypebyneme(2ptarg)] == -1) 
43 err quit('invalid -2 option ts", uptarg); 
ad crea; 

15 default: 

16 err quit('urrecognized opcion; $o", cl; 
4" } 

a£ ) 

49 sadb dump (satyre! ; 

5e } 


hewdume.c 


图 19-5 ”通过 密 钥 管理 套 接 字 发 出 SADB_DUMP 命 令 的 程序 


这 是 我 们 第 一 次 磁 到 POSIX 的 getopt 函 数 。 该 玉 数 的 第 三 个 参数 
是 一 个 字符 串 ， 指 定 允 许 作 为 命令 行 选 项 出 现 的 字符 ， 本 例 中 为 t。 


这 个 字符 后 跟 一 个 冒号 ， 表 示 这 个 选项 需要 一 个 参数 。 在 允许 有 不 止 
一 个 作为 命令 行 选项 出 现 的 字符 的 程序 中 ， 这 些 字 符 就 串 接 在 一 起 。 
例如 图 29-7 所 示 程 序 中 ， 这 个 参数 是 0i :1:vV， 表 示 那 个 程序 接受 4 个 
选项 : 寺 和 1 这 两 个 选项 需要 参数 ，0 和 V 这 两 个 选项 不 需要 参数 。 
getopt 琅 数 与 在 <unistd.h> 头 文件 中 定义 的 以 下 4 个 全 局 变量 协同 
工作 。 


extern char *optarg: 
extern int optind, opterr, optopt; 


在 调用 getopt 之 前 我 们 把 opterr 设 置 为 0， 以 防 发 生命 令 行 参 
数 与 该 函数 第 三 个 参数 不 匹配 等 错误 时 该 函数 把 出 错 消 息 写 出 到 标准 
错误 输出 ， 因 为 我 们 想 上 自行 处 理 这 些 错误 。POSIX 声 称 把 该 函数 的 第 
三 个 参数 指定 为 以 一 个 冒号 打头 也 可 以 阻止 该 函数 写 出 到 标准 错误 输 
出 ， 不 过 并 非 所 有 实现 都 支持 这 一 点 。 


打开 PF_KEY 套 接 字 


1-8 打开 一 个 PF_KEY 套 接 字 。 这 个 操作 需要 特定 系统 权限 ， 
为 它 允 许 访问 敏感 的 密 钥 素材 。 


构造 SADB_DUMP 请 求 


9-15 ” 先 清 零 sadb_msg 结 构 以 跳 过 对 那些 我 们 希望 其 保持 为 零 
的 字段 的 初始 化 ， 再 单独 将 其 余 字 段 填充 到 sadb_msg 结 构 中 。 在 以 
PF_KEY_V2 为 第 三 个 参数 调用 socket 打 开 的 PF_KEY 套 接 字 上 写 出 
的 所 有 消息 必须 把 消息 版 本 都 设置 为 PF_KEY_V2。 消 息 类 型 为 
SADB_DUMP。 长 度 为 不 带 扩展 的 基本 首部 长 度 。 我 们 还 设置 进程 有 D 为 
自己 的 PID， 因 为 从 进程 到 内 核 的 所 有 消息 必须 以 发 送 者 的 PID 来 标 


识 i 
输出 SADB_DUMP 消 息 并 写 到 套 接 字 


16-18 ”使 用 我 们 的 print_sadb_msg 画 数 显示 本 消息 。 我 们 不 
给 出 这 个 见长 而 无 味 的 函数 ， 它 包含 在 可 目 由 获取 的 源 代码 中 。 它 接 
受 正 写 到 或 已 读 目 密 钥 管 理 套 接 字 的 某 个 消息 ， 以 直观 可 读 方式 显示 
其 中 的 所 有 信息 。 我 们 接着 写 出 本 消息 到 套 接 字 。 


读 取 应 答 

19-30 进入 一 个 循环 逐一 读 取 每 个 应 答 ， 并 使 用 
print_sadb_msg 显 示 输 出 。 倾 泻 序列 中 最 后 一 个 消息 的 消息 序列 号 
为 0， 所 以 我 们 将 其 作为 “文件 结束 ”标志 。 
关闭 PF_KEY 套 接 字 

32 最 后 关闭 先前 打开 的 套 接 字 。 
处 理 命 令 行 参数 

38-48 ” main 函数 没 多 少 事 可 做 。 本 程序 取 一 个 可 选 的 命令 行 
数 ， 用 以 指定 待 倾 海 的 SA 类 型 。SA 类 型 默认 为 
SADB_SATYPE_UNSPEC， 这 会 倾泻 所 有 类 型 的 SA。 通 过 指定 命令 行 
参数 ， 用 户 可 以 选择 倾泻 哪 种 类 型 的 SA。 本 程序 使 用 我 们 所 
getsatypebyname 函 数 从 文本 串 得 到 类 型 值 。 
调用 sadb_dump 辑 数 


49 ”最 后 调用 刚 定义 的 sadb_dump 丙 数 完成 全 部 工作 。 
515~ 
516 
运行 示例 
下 面 是 在 一 个 具有 2 个 静态 SA 的 系统 上 运行 本 倾泻 程序 的 输出 。 


党 


macosx % dump 
Sending dump message: 
SADB Message Dump, errno 0, satype Unspecified, seq 0, pid 20623 


Messages returned: 
SADB Message Dump, errno 0, satype IPsec AH, seq 1, pid 20623 
SA: SPI=258 Replay Window=0 State=Mature 
Authentication Algorithm: HMAC-MD5 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 


© allocations, © bytes 
added at Sun May 18 16:28:11 2003, never used 
Source address: .5/128 (IP proto 255) 


Dest address: .9/128 (IP proto 255) 
Authentication key, 128 bits: 0x20202020202020200202020202020202 


SADB Message Dump, errno 0, satype IPsec AH, seq 0, pid 20623 
SA: SPI=257 Replay Window=0 State=Mature 
Authentication Algorithm: HMAC-MD5 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 
© allocations, © bytes 
added at Sun May 18 16:26:24 2003, never used 
Source address: .4/128 (IP proto 255) 


Dest address: .8/128 (IP proto 255) 
Authentication key, 128 bits: 0x10101010101010100101010101010101 


19.4 创建 静态 安全 关联 


可 SADB 增 加 一 个 SA 最 直接 的 方法 是 手工 指定 所 有 参数 填写 并 发 

送 一 个 SADB_ADD 消 息 。 尽 管 手工 指定 密 钥 素材 会 导致 不 易 更 改 密 铀 
(这 一 点 对 于 避免 密码 分 析 攻 击 至 关 重 要 ) ， 配 置 起 来 却 相当 容易 : 

Alice 和 Bob 使 用 带 外 手段 达成 一 个 密 钥 和 算法 ， 然 后 使 用 它们 。 我 们 
给 出 创建 和 发 送 一 个 SADB_ADD 消 息 的 步骤 。 

SADB_ADD 消 息 必 有 需 的 扩展 有 3 种 : SA、 地 址 和 密 钥 。 可 选 的 扩 
展 也 有 3 种 : 生命 期 、 身 份 和 敏感 性 。 我 们 首先 讲解 必需 的 扩展 。SA 
扩展 由 如 图 19-6 所 示 的 sadb_sa 结 构 描 述 。 


517 


struct sadd sa ( 


u intl» t sâde sa ler; /* lenstn of extension / & */ 

w_intlS t sedo sa exttype; /* SADE_EXT_SA */ 

u int32 L sedi sa spi: /* Security Parameters Index (SPI! */ 

u int t sado sa replay; /* replay window size, or zerc */ 

u ints t gsadr sa Etato; /* SF. etate, zea Figure 19.) */ 

u int8 t sade 2à auth; /* authentication alsorichm,sce Fioure 19.8*; 
u int8 t sedo sa encryp-; /* encryption algorithm, see Figure 19.8 */ 
u inr32 t sadb ga f'iags; /* hitnask of flacs */ 


图 19-6 SAP E 


sadb_sa_spi 成 员 含 有 安全 参数 索引 (Security Parameters 
Index, SPI) 。SPI 结 合 目的 地 址 和 所 用 协议 (如 IPsec AH) 唯一 标识 
一 个 SA。 在 接收 分 组 时 ，SPI 用 于 查找 该 分 组 的 SA;， 当 发 送 分 组 时 ， 
SPI 插 入 到 分 组 中 供 对 端 使 用 。SPI 没 有 别 的 含义 ， 因 此 其 值 可 以 顺序 
地 或 随机 地 分 配 ， 也 可 以 使 用 目的 系统 首选 的 方法 进行 分 配 。 
sadb_sa_replay 指 定 反 重 放 窗 口 的 大 小 。 既 然 静态 生成 密 钥 无 法 反 
重 放 ， 我 们 把 它 设置 为 0。 Dsadb_sa_state 成 员 值 在 动态 创建 的 SA 
的 生命 周期 内 会 发 生变 化 ， 可 取 值 如 图 19-7 所 示 。 然 而 手工 创建 的 SA 
总 是 处 于 SADB_SASTATE_MATURE 状 态 。2 我 们 将 在 19.5 节 看 到 其 他 
状态 。 


SADB SASTATE LARVAL 被 创 | d 过 程 : p 


SADB SASTATE MATURE 完全 形成 


SADB_SASTATE_DYING Hz da MILL 
SADB SASTATE DEAD 硬 生 命 期 结束 


图 19-7 ”SA 的 可 能 状态 


sadb_sa_auth 成 员 和 sadb_sa_encrypt 成 员 分 别 指定 本 SA 的 
认证 算法 和 加 密 算法 ， 可 取 值 如 图 19-8 所 示 。sadb_sa_flags 成 员 
目前 只 定义 了 一 个 标志 ， 即 SADB_SAFLAGS_PFS。 该 标志 要 求 完 备 
前 向 安全 (perfect forward security) ， 也 就 说 这 样 的 密 钥 一 定 不 依赖 
于 任何 先前 的 密 钥 或 某 个 主 密 钥 。 该 标志 值 用 于 从 密 钥 管理 守护 进程 
请 求 密 钥 的 场合 ， 增 加 静态 SA 时 不 用 。 


SADB AALG NONE 不 认证 
SADB AALG MD5HMAC HMAC-MD5-96 RFC 2403 
SADB_AALG_SHALHMAC IIMAC-SIIA-1-96 RFC 2404 


SADB_EALG NONE 不 加 密 

SADB EALG DESCBC DES-CRC RFC 2405 
SADB EALG 3DESCSC 3DES-CBC RFC 1851 
SADB EALG NULL NULL RFC 2410 


图 19-8 ”认证 和 加 密 算法 


SADB_ADD 消 息 下 一 种 必需 的 扩展 是 地 址 。 分 别 由 常 值 
SADB_EXT_ADDRESS_SRC#ISADB_ EXT_ADDRESS_DST 指 定 的 源 
地 址 与 目的 地 址 是 必需 的 ， 而 由 常 值 SADB_EXT_ADDRESS_PROXY 指 
定 的 代理 地 址 是 可 选 的 。 代 理 地 址 详 见 RFC 2367 [McDonald, Metz, 
and Phan 1998] 。 地 址 使 用 如 图 19-9 所 示 的 sadb_address 扩 展 所 指 
定 。 该 结构 的 sadb_address_exttype 成 员 确 定 本 地 址 的 上 述 类 
别 。sadb_address_proto 成 员 指定 本 SA 有 签 匹 配 的 IP 协 议 ， 若 为 0 


则 匹配 所 有 协议 。sadb_address_prefixlen 成 员 给 出 本 地 址 的 有 
效 位 数 ， 这 样 单个 SA 可 以 匹配 多 个 地 址 。sadb_address 结 构 后 跟 合 
适 地 址 族 的 sockaddr 结 构 (如 sockaddr_in 或 

sockaddr_in6) 。sockaddr 中 的 端口 仅 在 
sadb_address_proto 指 定 的 协议 支持 端口 号 的 前 提 下 (如 
IPPROTO_TCP) 才 有 效 。 


struct sadb_acdress | 


4 int18 - sadb address len; /* Length af extension + address / 8 */ 
u int16 + sadb address exttype; /* SRFB EXT ADDRESS {SRC,CST, 2ROKY} */ 
4 int8 t sadb addroeoc proto; /* IP protocol, or C tor all */ 

4 int0 t sedb_address_prefixlen; /* # significant bits in address */ 

4 inrih - sadb address reserved: /* reserved for extension */ 


E 


/* tollowed by cperopriate sockaddr */ 


图 19-9 ”地 址 扩 


SADB_ADD 消 息 最 后 一 种 必需 的 扩展 是 认证 和 加 密 密 钥 ， 分 别 由 
常 值 SADB_EXT_KEY_AUTH 和 SADB_EXT_KEY_ENCRYPT 指 定 ， 由 如 
图 19-10 所 示 的 sadb_key 结 构 描 述 。 其 中 sadb_key_exttype 成 员 
定义 本 密 钥 是 认证 密 钥 还 是 加 密 密 钥 ，sadb_key_bits 成 员 指 定 本 
密 钥 的 位 数 ， 密 钥 本 喘 则 紧 跟 在 sadb_Kkey 结 构 之 后 。 


xal 


atruct sadb_key [ 


g in-16 二 sadb key ler; /* length of extenaion + key / & */ 
u inzie = sadb key exttyps; /* SPDE EXI KEY (AUTH,sNCRYPT) */ 
u in-l6 ~ sadb_key bits; /* # bits in key */ 

u in-16 - sadb key reserved; /* reserved for ex-ension wj 


m 


518~ 
519 


图 19-11 给 出 了 增加 一 个 静态 SADB 表 项 的 程序 代码 。 


/* tc.lowed zy key data */ 


图 19-10 eA E 


Ol 
© 


heviadd.c 


33 void 

34 salh_add (struct sockaddr ^sre, struct soackeddr “dst, int type, int alg, 
as int spi, int keybits, wisigmd char *keydata) 
36 | 

37 int 8; 

38 char cut 4096), *p; /* XXX */ 

39 struct szdo rsa *m3g; 

40 struct szdo sa *8aext; 

41 struct sado_address taddrext; 

42 strul sado key keyext; 

43 int len; 

a4 int myrid; 

15 日 = Socket(PE KEY, SOCK R^W, EF KEY V2); 


46 mid - getpid() ; 


47 /* Build and write SADB ADD request */ 
as bzero(ébut, sizecf(buf)): 

as p = buf; 

50 msg = (struct sadb mag *!p: 

51 msg-»sadb msg version = PP KEY V2; 


52 mgg-»sadb msg type = SADR Ann; 
33 meg->cadb meg zatype = type; 
34 mag->sadb_msg_5:.d = getpic(),. 


55 len = sizeof (*rsg); 

56 p += sizeof[^mag!; 

EY! saext = (struct sadb sa *)p; 

38 sacut ssado_sa_len = sizeof(*sacxt) / 8; 

59 saexL-»ssdo sa_exllype = SADB EXT SA; 

50 saext-»sado ga spi ~ htonl (spi); 

51 B&aext-»e2do psa replay = 0; /* ro replay protection with etacic keye */ 
62 Saext--ssdo sa scaze = SADB_SASTATD MATURE; 

63 saext-»ssdo sa auth = alg; 

54 Saexrt-»eado ca encrypt = SADE EALG NONE; 

55 gcaext-»o2do cà flaàqo = 0; 

S len +- ssext--3adb sa len * 8; 

了 | p += saext-»5adb sa len * 8; 

58 addrext = (stric: sadb adiress *)p; 

$Y addrext->eadb address len = (sizeof(*taddrext) + calenisrc) + 7; / 87 
70 addrext ->sadb_address_exttype = SADB_EXT_ADDRESS_SRC; 

71 eckirext-ssadi_ address proto = 0; — /^ any zrutocol */ 

2 addrext->sadc_address prefixlsn - pretix_ali(sre); 

73 addrext ->eadb_ address recerves = 0; 


a mencpy laddrext + 1, src, salen(src)); 
75 len += addrext-»sadb_address_len * 3; 
6 p -= addrext-»sadb_address_len ^ B, 


77 addrext = (struct sadb add-ess ^ig; 

78 addrext-»sedb _sdéress len = (sizezf(*addrext) + salen'dst) + 7) / 8; 
79 addrext-»s&db sdirsss excztype - SAD2 EXT ADDRESS D^; 

£0 addrext->sedb_eddress_ proto - 0; /* any prctoccl */ 

6z addrext ->sadb_address_prefixlen = prefix_allidst); 

£2 addrext -2sedb address reserved = 

£3 mnzpy laddrext + 1, dst, salen(dst)); 

E4 len +2 addrext->sadb address le: * 8; 

FS p -= aldrext-ssatb address len * R; 

£6 keyex. = (sLrurL sadb_key *)p; 

RT {* "«7* handles a^ digonen. requirerents */ 

EB keyaxn-əsadh_key_ “san = (sizeof (*kayex:) + ikeybits / 8) e 7) / Pi 
£9 keyex:-»sadb kev exttype = SADR_EXT_KEY_AUTH; 

so keysx--»sadb key bits = keybits; 

$i keysx--»sadh key reserved = 0; 

2 nericpy ikeyext + 1, keydace, keybits / 8); 

91 len += keyext-ssadb «ey len * 8; 

S4 p -= xeyext->sedo key len t 8; 

95 mag-»sadb msz le" = len / 8; 

26 printf i'Sending add message:\n"); 

97 pr-nt sadb msg(buf, len); 

og Write(s, but, len); 

es pr-ntfi'SnReply returned:'n';; 

109 /* Read and print SACE ADO reply, discarding ary others */ 
101 fcr (37) ( 

102 int mszien; 

103 struct sad- msg *msqp; 

103 msclen = Readí(s, abut, sizecf(buf)): 

105 mscp = (struct sadb meg *)zbuf; 

105 it (mscgp-»sadb msq pic == mypid && msgp-»sad- msg type == SADS ADD) ( 
107 print sadb msg (nsap, aeg cni; 

108 break; 

103 } 

一 局 i 

121 close (s! ; 

113 ] 


heyiadd.c 


图 19-11 通过 密 钥 管理 套 接 字 发 出 SADB_ADD 命 令 的 程序 
打开 PF_KEY 套 接 字 并 保存 PID 
47-56 ”打开 一 个 PF_KEY 套 接 字 ， 保 存 我 们 的 PID 供 以 后 使 用 。 
构造 SADB_ADD 消 息 首部 


55~56 构造 一 个 普通 的 SADB_ADD 消 息 首部 。 直 到 写 出 本 消息 
之 前 再 设置 sadb_msg_len 成 员 ， 以 便 确 切 反 映 整个 消 忆 的 长 度 。 
len 变 量 退 味 本 消息 的 当前 长 度 ， 而 p 指 针 总 是 缓冲 区 中 第 一 个 未 用 的 
TT o 


添加 SA 扩展 


57-67 接 下 来 我 们 要 添加 必需 的 SA 扩展 (图 19-6) ° 
sadb_sa_spi 必 须 以 网 络 字 贡 序 存放 ，hton1 用 于 把 作为 本 函数 的 
参数 传 入 的 主机 字 节 序 的 SPI 值 转换 成 网 络 字 节 序 。 关 掉 重 放 保 护 ， 把 
SA 状态 设置 为 SADB_SASTATE_MATURE。 把 认证 算法 设置 为 通过 命 
令 行 参 数 指定 的 算法 ， 加 密 算法 则 设置 为 SADB_EALG_NONE。 

521 
添加 源 地 址 

68-76 将 源 地 址 以 SADB_EXT_ADDRESS_SRC 扩 展 的 形式 添加 
到 本 消息 。 协 议 值 被 置 为 0， 表 示 本 SA 适用 于 所 有 协议 。 前 组 长 度 被 
置 为 相应 IP 版 本 的 地 址 长 度 ， 对 于 IPv4 为 32 位 ， 对 于 IPv6 为 128 位 。 长 
度 字 段 的 计算 是 先 加 7 再 除 以 8， 以 确保 反映 出 按 64 位 边界 填充 后 的 长 
度 。 把 sockaddr 结 构 复 制 到 本 扩展 首部 紧 后 。 
添加 目的 地 址 


77-85 目的 地 址 按照 与 源 地 址 一 样 的 方式 以 
SADB_EXT_ADDRESS_DST 扩 展 的 形式 添加 到 本 消息 。 


添加 认证 密 钥 

86-94 ”以 SADB_EXT_KEY_AUTH 扩 展 的 形式 添加 认证 密 钥 。 长 
度 字 段 计 算 与 添加 源 地 址 一 样 。 设 置 好 密 钥 位 数 后 把 密 钥 数 据 复 制 到 
本 扩展 首部 紧 后 。 
写 出 本 消息 

95-98 调用 print_sadb_msg 函 数 显 示 本 消息 后 把 它 写 出 到 套 


读 取 应 答 


99-111 ， 读 取 来 自 套 接 字 的 应 答 ， 寻 找 PID 与 本 进程 一 致 的 
SADB_ADD 消 息 。 调 用 print_sadb_msg 函 数 显 示 该 消息 后 退出 。 


运行 示例 


发 送 SADB_ADD 消 息 为 127.0.0.1 和 127.0.0.1 之 间 的 分 
组 流通 增设 一 个 SA。 


macosx % add 127.0.0.1 127.0.0.1 HMAC_SHA-1-96 160 \ 
0123456789abcdef0123456789abcdef01234567 


Sending add message: 
SADB Message Add, errno ©, satype IPsec AH, seq ©, pid 6246 
SA: SPI=39030 Replay Window=0 State=Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
Source address: 127.0.0.1/32 
Dest address: 127.0.0.1/32 
Authentication key, 160 bits: 
0x0123456789abcdef0123456789abcdef 01234567 


Reply returned: 
SADB Message Add, errno ©, satype IPsec AH, seq ©, pid 6246 
SA: SPI-39030 Replay Window=0 State=Mature 

Authentication Algorithm: HMAC-SHA-1 

Encryption Algorithm: None 

Source address: 127.0.0.1/32 

Dest address: 127.0.0.1/32 
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注意 作为 请 求 消息 的 回 射 的 应 答 消 息 没 有 给 出 密 钥 内 容 。 这 人 么 做 
征 因为 应 答 消 息 被 发 送 到 所 有 PF_KEY 套 接 字 ， 然 而 不 同 的 套 接 字 可 
能 属于 不 同 的 保护 域 ， 密 钥 数 据 不 应 该 跨越 保护 域 。 把 这 个 SA 添加 到 
oe 我 们 对 127.0.0.1 执 行 ping 命 令 以 促使 该 SA 被 用 上 ， 然 后 倾 
演出 SADB 以 检查 所 添加 的 SA ° 


macosx % dump 
Sending dump message: 
SADB Message Dump, errno 0, satype Unspecified, seq 0, pid 6283 


Messages returned: 
SADB Message Dump, errno 0, satype IPsec AH, seq 0, pid 6283 
SA: SPI=39030 Replay Window=0 State=Mature 

Authentication Algorithm: HMAC-SHA-1 

Encryption Algorithm: None 

[unknown extension 19] 

Current lifetime: 


36 allocations, 0 bytes 
added at Thu Jun 5 21:01:31 2003, first used at Thu Jun 5 
21:15:07 2003 


Source address: 127.0.0.1/128 (IP proto 255) 
Dest address: 127.0.0.1/128 (IP proto 255) 
Authentication key, 160 bits: 
0x0123456789abcdef0123456789abcdef 01234567 


从 倾泻 出 的 结果 可 以 看 到 ， 内 核 把 我 们 的 IP 协 议 由 0 改 为 255。 这 
是 本 实现 的 一 个 特征 (实际 上 是 一 个 缺陷 ) ， 而 并 非 PF_KEY 套 接 字 
的 普遍 特征 。 o 此 外 我 们 看 到 内 核 把 前 缀 长 度 由 32 改 为 128 (本 实现 的 另 
一 个 缺陷 ) 。 它 看 似 由 内 核 混 消 IPv4 和 IPv6 地 址 引起 。 内 核 还 返回 一 
SEOs EPR UR AT R& (编号 为 19) 。 不 认识 的 扩展 利用 它 
所 返回 的 生命 期 扩展 (图 19-12) 含有 本 SA 的 当前 
HB ZEB GS? 


struct sadb lifetime { 


4 int16 = sadb lifetime len: /* length o£ exteneicn / & */ 
4 inti < sadb lifetime exttyps; /* SACB EXT LIFETIME | SOFT,HARD, CURRENT} MÀ 
4 inz22 ~ sadb lifetime &llocat:ions, /* H connections, sndpoints. or flows */ 
4 inz64 二 sadb l-fert:me bytes: /* bytes */ 
J ínze4 = sadb lifetime addtime; {* tire of creation, or time from 
ercation to cxparation */ 
in 64_ sadb 1 fe: me usetims; /* rime frist used, cr time from 


first use to expiration */ 


图 19-12 ”生命 期 扩展 


生命 期 扩展 共有 3 个 类 型 。 SADB_LIFETIME_SOFT 和 
SADB_LIFETIME_HARD 这 两 个 扩展 分 别 cul c 
生命 期 。 当 软 生命 期 结束 时 ， 内 核发 送 一 个 SADB_EXPIRE 消 息 ; 4 
硬 生命 期 结束 后 ， 该 SA 不 能 再 用 。 用 于 指出 相应 SA 当前 生命 期 的 
SADB_LIFETIME_CURRENT 扩 展 在 以 下 响应 消息 中 返回 : 
SADB_DUMP、SADB_EXPIRE 和 SADB_GET。 
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19.5 ”动态 维护 安全 关联 


周期 性 地 重新 产生 密 钥 有 助 于 进一步 提高 安全 性 。 这 种 操作 通常 
由 诸如 IKE (RFC 2409 [Harkins and Carrel 1998] ) 之 类 协议 执行 。 


编写 本 书 时 IETF IPsec 工作 组 正在 规范 IKE 的 一 个 替代 协议 。 


为 了 获悉 何 时 需要 为 一 对 主机 提供 新 的 SA， 密 钥 管理 守护 进程 应 
预先 使 用 SADB_REGISTER 请 求 消息 向 内 核 注册 自身 ， 其 中 的 
sadb_msg_satype 成 员 会 指出 所 能 处 理 的 SA 类 型 。 如 果 守 护 进程 能 
够 处 理 多 个 SA 类 型 ， 它 就 为 其 中 每 个 类 型 故 送 一 个 SADB_REGISTER 
请 求 消息 。 在 相应 的 SADB_REGISTER 应 答 消 息 中 ， 内 核 提 供 一 个 受 
支持 算法 扩展 ， 指 出 哪些 加 密 和 /或 认证 机 制 及 密 钥 长 度 得 到 支持 。 受 
支持 算法 扩展 由 如 图 19-13 所 示 的 sadb_supported 结 构 描 述 ， 紧 跟 
该 扩展 首部 的 是 以 一 系列 sadb_alg 结 构 形 式 给 出 的 加 密 或 认证 算法 


描述 。 


struct sadb supported | 


u intl6 t sadb cupported len; /* length ot extension + algorithms / E */ 
u incle t cadb zupporrted ex-type; /* SADE EM SUPPORTSD_{AUTH, ENCRYPT} */ 
u int32 t sadb supported reserved; /* reserved ter futuro expansion */ 


um 


/* tollowed by algorithm List */ 
ctruct cadb ala [ 


u inté t sadb als id; /* algorithn ID from Fiqure 19.8 */ 
u int& t sadb_alq_ ivicn; /* IV Lcnatr, or zero */ 
u intlé t sadb alg minbits; /* minimum key Length */ 
u incl6 t sadb alo maxbit2; /* maximum Key Length */ 


u intlé t sadb ala reserved; /* reserved fcr futurs expansion */ 


图 19-13” 受 支持 算法 扩展 


sadb_supported 扩 展 首部 之 后 出 现 的 每 个 sadb_alg 结 构 代 表 
系统 支持 的 一 个 算法 。 图 19-14 给 出 了 对 于 某 个 注册 人 处理 SA 类 型 为 
SADB_SATYPE_ESP 的 SADB_REGISTER 请 求 的 一 个 可 能 应 答 。 


sadb zagí(] 


sadb mag[] 


Eadb meg len 


sadb msg type - 
SADB_RDSISTER 


sab msg type - 
SADE REGISTER 


sab supported{} 


sadz supported_exttype - 
SADB_EXT_SUPPORTED_ATTH 


sadb als() 
sadb alu id « 
SADB AALG MOSHMAC 
ivlen = 4 
minbits - 125 
maxbite = 125 


sadb alg{} 
sadb a3 i8 = 
BMDE AAL3 &SEAIEMAC 
ivlen = 9 
minbizs - 192 
maxbits = 192 


sad» suppcrted() 


sadz 
supported 
len 


sadb msg len 


sach supported ext-ype = 
SADE EXT SUFPORTED ENCRYPT 


sadb alg{} 
sads_ala id - 
SADE EALG DES 

ivlan = 8 
mizbits - 64 
maxbits - 6+ 


aadb alg{} 
sadb alg id - 
SADS EALG 3LES 
ivlen = 8 
minzztg = 192 
maxoita = 192 


sadb alg[) 
sazb alg id ~ 
SADS_BALG NULL 

ivlen = 0 
mirbits = 0 
maxbits « 2048 | 


gadb_ 
supportei_ 
lez 


图 19-14 内核 为 SADB_REGISTER 请 求 返 回 的 应 答 
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图 19-15 给 出 的 程序 使 用 SADB_REGISTER 请 求 向 内 核 注 册 自 身 进 
程 ， 然 后 显示 内 核 在 应 答 中 返回 的 受 支 持 算法 列表 © 


Kewregister.c 


1 void 

2 sadb registeriint typa) 

3 { 

4 iat 8; 

z char buf [4086] ; /* Xxx af 
6 struct sadb mez msg; 

q int gotect; 

a int mypid; 

S 8 = ScCkec (PF KEY, SCCK RAW, PF KEY V2); 
10 mypid = getpid(! ; 

1i /* Build ard write EADB REGISTER requcoz */ 
2 bzero(&msg, sizecf (magi); 

13 msg.sadb meg version = PF_KEY V2; 

14 mag.sadb meg typs = SALE REGISTER; 

15 m3q.aadb mog s2typ2 = type; 

16 mag.sadb wsg len = sizeolimsg) / B; 

17 mag.sadb meg pid = mypid; 

18 printf!'sendinz register mesesg=:\n"); 
19 print sadb meg(&msa, sizeotimsq)!; 

20 Wr be(s, Amm, wiveofimsg)!; 

zi printE|'inReply returned: n';; 

22 /* Read and print SACB REGISTER reply, discarding any cthers */ 
23 for (ey) ( 

34 int msc.an; 

z5 struct sadc_msg *msgp; 

26 mscien 一 Readis, abut, sizecf(buf)): 
ev mecp = [struct sadb meg *)&but; 

28 i= (msop->sadb_msg_pic == mypid && 
29 mscp-»sadb mj type == SA9B REGISTER) ( 
30 princ sadb msg(mscp, msglen!; 

31 brsak; 

32 ) 

33 ] 

34 close(s!; 

a5 > 


keyregister.c 


19-15 ”通过 密 钥 管理 套 接 字 注册 进程 的 程序 
打开 PF_KEY 套 接 字 
1-9 打开 一 个 PF_KEY 套 接 字 。 
保存 PID 


10 ”既然 应 答 消 息 将 使 用 我 们 的 PID 寻 址 ， 我 们 保存 自己 的 PID 供 
以 后 比较 用 。 


构造 SADB_REGISTER 消 息 


"n 17 像 SADB_DUMP 请 求 消息 一 样 ，SADB_REGISTER 请 求 消 
息 也 不 需要 任何 扩展 。 清 零 该 消息 后 填写 所 需 的 成 员 即 可 。 
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显示 消息 并 写 出 到 套 接 字 


18-20 使 用 print_sadb_msg 函 数 显示 刚 构造 的 消息 ， 并 把 它 
写 出 到 套 接 字 。 


等 待 应 答 


23-33 ”从 套 接 字 读 入 消息 ， 找 出 与 我 们 的 注册 请 求 消息 对 应 的 
应 答 消 息 。 该 应 答 消 息 是 一 个 PID 值 为 本 进程 PID 的 SADB_REGISTER 
消 轧 ， 其 中 含有 一 个 受 文 持 算法 的 列表 ， 全 部 由 print_sadb_msg 函 
数 显示 输出 。 


运行 示例 


我 们 在 一 个 不 仅仅 支持 RFC 2367 中 规定 协议 的 系统 上 运行 
register 程 序 。 


macosx % register -t ah 
Sending register message: 
SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 


Reply returned: 

SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 
Supported authentication algorithms: 
HMAC-MD5 ivlen © bits 128-128 
HMAC-SHA-1 ivlen © bits 160-160 
Keyed MD5 ivlen 0 bits 128-128 
Keyed SHA-1 ivlen 0 bits 160-160 
Null ivlen 0 bits 0-2048 
SHA2-256 ivlen 0 bits 256-256 
SHA2-384 ivlen 0 bits 384-384 
SHA2-512 ivlen 0 bits 512-512 
Supported encryption algorithms: 
DES-CBC ivlen 8 bits 64-64 
3DES-CBC ivlen 8 bits 192-192 
Null ivlen 0 bits 0-2048 


Blowfish-CBC ivlen 8 bits 40-448 
CAST128-CBC ivlen 8 bits 40-128 
AES ivlen 16 bits 128-256 


当 内 核 需 与 某 个 目的 地 址 通信 时 ， 如 果 根 据 策略 该 单 向 分 组 流 必 

须 经 由 一 个 SA 而 内 核 却 并 没有 一 个 SA 可 用 ， 内 核 就 向 注册 了 所 需 SA 
类 型 的 密 钥 管 理 套 接 字 发 送 一 个 SADB_ACQUIRE 消 息 ， 其 中 含有 一 个 
描述 内 核 所 提议 算法 及 密 钥 长 度 的 提议 扩展 。 该 提议 可 能 综合 了 系统 
支持 的 配置 与 限制 该 单 向 分 组 流 的 预 配置 策略 。 提 议 内 容 是 一 个 由 算 
法 、 密 钥 长 度 和 生命 期 构成 的 按照 优选 顺序 排列 的 列表 。 当 一 个 密 钥 
管理 守护 进程 收 到 一 个 SADB_ACQUIRE 消 息 之 后 ， 它 执行 必要 的 操作 
以 选择 一 个 符合 内 核 之 提议 的 密 钥 ， 再 把 该 密 钥 安装 到 内 核 中 。 它 使 
用 SADB_GETSPI 消 息 请 求 内 核 从 一 个 期 望 的 范围 内 选择 一 个 SPI。 内 
核对 于 该 SADB_GETSPI 消 息 的 响应 包括 建立 一 个 处 于 幼虫 (larval) 
状态 的 SA。 然 后 守护 进程 使 用 由 内 核 提 供 的 这 个 SPI 与 远 端 协商 安全 
参数 ， 接 着 使 用 SADB_UPDATE 更 新 该 SA， 使 它 进 入 成 熟 (mature) 
状态 。 动 态 创建 的 SA 通常 还 有 关联 的 软 生命 期 和 硬 生 命 期 。 当 任何 一 
个 生命 期 结束 时 ， 内 核 将 发 送 一 个 SADB_EXPIRE 消 息 ， 其 中 指出 期 
满 的 是 软 生命 期 还 是 人 硬 生 命 期 。 如 有 果 软 生命 期 结束 ， 其 SA 就 进入 垂死 

(dying) 状态 ， 期 间 它 仍然 可 以 使 用 ， 不 过 内 核 应 该 为 它 获 取 一 个 新 
的 SA。 如 果 硬 生命 期 结束 ， 其 SA 就 进入 死亡 (dead) 状态 ， 这 种 状态 
的 SA 不 能 继续 使 用 ， 必 须 从 SADB 中 删除 。 
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19.6 小结 


密 钥 管理 套 接 字 用 于 在 内 核 、 密 钥 管 理 守护 进程 以 及 诸如 路 由 守 
护 进 程 等 安全 服务 消费 进程 之 间 交 换 SA。SA 有 既 可 以 手工 静态 安 狠 ， 
也 可 以 使 用 密 角 协商 协议 目 动 动态 安 儿 。 动 态 密 钥 有 关联 的 生命 期 。 
当 软 生命 期 结束 时 ， 密 钥 管 理 守护 进程 得 到 通知 。 这 样 的 SA 如 末 在 人 硬 
生命 期 结束 前 未 被 新 的 SA 替换 ， 那 就 不 能 再 使 用 。 


进程 和 内 核 通过 密 钥 管理 恨 接 字 交 换 的 请 轧 共有 10 个 类 型 。 每 个 
消 思 类 型 都 有 关联 的 扩展 ， 有 的 是 必需 的 ， 有 的 是 可 选 的 。 每 个 由 进 
程 发 送 的 消息 被 内 核 回 射 到 所 有 其 他 打开 着 的 密 钥 管理 套 接 字 ， 不 过 
任何 含有 敏感 数据 的 扩展 会 被 抹 除 。 


习题 


19.1 编写 一 个 程序 ， 打 开 一 个 PF_KEY 套 接 字 后 显示 从 中 收取 的 
所 有 消息 ? 

19.2 访问 IETF IPsec 工作 组 的 网 页 
http://www.ietf.org/html.charters/ipsec-charter.html， 找 出 由 该 工作 组 创 
建 的 用 于 替换 IKE 的 新 协议 。 
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@ 本 书 第 3 版 新 作者 对 于 若干 概念 存在 一 些 误解 ， 这 里 是 其 中 之 一 。 反 
重 放 (也 称 为 重 放 保 护 ) 与 静态 生成 密 钥 没有 任何 关系 。 反 重 放 是 一 
个 时 效 性 相当 强 的 概念 ， 通 常情 况 下 远 小 于 密 钥 的 有 效 期 。 密 钥 的 有 
效 期 可 以 设置 得 相当 长 (如 若干 年 ， 主 要 取决 于 密 钥 的 强度 和 同时 
代 计 算 能 力 破 解密 钥 可 能 花费 的 时 间 ; 这 也 是 密 钥 可 以 通过 融 外 手段 
静态 生成 的 理由 之 一 。 反 重 放 通 常 有 时 间 戳 (timestamp) 和 现时 

(nonce) 两 种 手段 。 前 者 为 每 个 分 组 指定 一 个 到 达 时 间 窗 口 ， 不 在 该 
窗口 内 到 达 的 分 组 视 为 被 重 放 的 分 组 而 丢弃 ， 条 件 是 源 和 日 的 主机 时 
间 基 本 同步 。 后 者 仅 适 用 于 一 对 主机 彼此 交替 发 送 分 组 的 场合 (BO 
oT E UE 源 和 目的 主机 时 间 无 需 
司 步 。 一 一 译 者 ; 


@ 手 工 静 态 创建 的 SA 和 动态 创建 的 SA 相 比 实际 上 只 缺乏 LARVAL 这 个 
状态 。 译 者 注 


第 20 章 广播 


20.1 概述 


我 们 将 在 本 章 和 下 一 章 分 别 介 绍 广 播 (broadcasting) 和 多 播 
(multicasting) 。 本 书 迄 今 为 止 的 所 有 的 例子 处 理 的 都 是 单 播 
(unicasting) : 一 个 进程 就 与 男 一 个 进程 通信 。 实 际 上 TCP 只 支持 单 

播 寻 址 ， 而 UDP 和 原始 IP 还 支持 其 他 寻 址 类 型 。 图 20-1 比 较 了 不 同类 
型 的 寻 址 方式 。 


iB TPE TEL 
7 T 个 
i acti 组 中 的 一 个 
组 中 的 全 伍 


全 体 
图 20-1 不 同 的 寻 址 方式 


IPv6 往 寻 址 体系 结构 中 增加 了 任 播 (anycasting) 方式 。 RFC 1546 

| Partridge, Mendez, and Milliken 1993] 讲述 了 一 个 IPv4 任 播 版 本 ， 它 
从 未 广泛 部 署 过 。IPv6 任 播 则 定义 在 RFC 3513 | Hinden and Deering 
2003] 中 。 任 播 允 许 从 一 组 通常 提供 相同 服务 的 主机 中 选择 一 个 (一 
般 是 选择 按 某 种 测度 而 言 离 源 主 机 最 近 的 ) 。 通 过 适当 地 配置 路 由 ， 
并 在 多 个 位 置 往 路 由 协议 中 注入 同一 个 地 址 ， 多 个 IPv4 或 IPv6 主 机 可 
以 提供 该 地 址 的 任 播 服务 。 然 而 RFC 3513 的 任 播 只 允许 路 由 器 拥有 任 
播 地 址 ， 主 机 可 能 无 法 提供 任 播 服务 。 编 写本 书 时 还 没有 使 用 任 播 地 
址 的 API 可 用 。 细 化 IPv6 任 播 体系 结构 的 工作 仍 在 进展 之 中 ， 将 来 的 主 
机 也 许 能 够 动态 地 提供 任 播 服务 。 
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图 20-1 中 的 要 点 是 : 
。 多 播 文 持 在 IPv4 中 是 可 选 的 ， 在 IPv6 中 却 是 必需 的 ; 


。 IPv6 不 支持 广播 。 使 用 广播 的 任何 IPv4 应 用 程序 一 旦 移植 到 IPv6 


束 必 须 改 用 多 播 重 新 编写 ; 


广播 和 多 播 要 求 用 于 UDP 或 原始 IP， 它 们 不 能 用 于 TCP 。 
广播 的 用 途 之 一 是 在 本 地 子 网 定位 一 个 服务 器 主机 ， 前 提 是 已 知 


或 认定 这 个 服务 器 主机 位 于 本 地 子 网 ， 但 是 不 知道 它 的 单 播 卫 地 址 。 
这 种 操作 也 称 为 资源 发 现 (resource discovery) 。 男 一 个 用 途 是 在 有 多 
个 客户 主机 与 单个 服务 器 主机 通信 的 局 域 网 环境 中 尽量 减少 分 组 流 


通 。 


出 于 这 个 目的 使 用 广播 的 因特网 应 用 有 多 个 例子 。 


。 ARP (Address Resolution Protocol， 地 址 解析 协议 ) 。ARP 并 不 是 


一 个 用 户 应 用 ， 而 是 IPv4 的 基本 组 成 部 分 之 一 。ARP 在 本 地 子 网 
上 广播 一 个 请 求 说 ‘IP 地 址 为 a.b.c.d 的 系统 亮 明 身份 ， 告 诉 我 你 的 
硬件 地 址 *”。ARP 使 用 链 路 层 广 播 而 不 是 IP 层 广播 。 

DHCP (Dynamic Host Configration Protocol， 动 态 主机 配置 协 

议 ) 。 在 认定 本 地 子 网 上 有 一 个 DHCP 服 务 器 主机 或 中 继 主 机 的 
前 提 下 ，DHCP 客 户主 机 向 广播 地 址 (通常 是 255.255.255.255， 
为 客户 还 不 知道 自己 的 IP 地 址 、 子 网 掩 码 以 及 本 子 网 的 受 限 广播 
地 址 ) 发 送 自己 的 请 求 。 | 

NTP (Network Time Protocol， 网 络 时 间 协 议 ) 。NTP 的 一 种 常见 
使 用 情形 是 客户 主机 配置 上 待 使 用 的 一 个 或 多 个 服务 器 主机 的 IP 
地 址 ， 然 后 以 某 个 频 度 (每 隔 64 秒 钟 或 更 长 时 间 一 次 ) 轮 询 这 些 
服务 器 主机 。 根 据 由 服务 器 返 送 的 当前 时 间 和 到 达 服 务 器 主机 的 
RTT， 客 户 使 用 精妙 的 算法 更 新 本 地 时 钟 。 然 而 在 一 个 广播 局 域 
网 上 ， 服 务 器 主机 却 可 以 为 本 地 子 网 上 的 所 有 客户 主机 每 隔 64 秒 
钟 广播 一 次 当前 时 间 ， 免 得 每 个 客户 主机 各 自 轮 询 这 个 服务 器 主 
机 ， 从 而 减少 网 络 分 组 流通 量 。 

路 由 守护 进程 。routed 是 最 早 实现 且 最 常用 的 路 由 守护 进程 之 
一 ， 它 在 一 个 局 域 网 上 广播 自己 的 路 由 表 。 这 么 一 来 连接 到 该 局 
域 网 上 的 所 有 其 他 路 由 器 都 可 以 接收 这 些 路 由 通告 ， 而 无 须 事 先 
为 每 个 路 由 器 配置 其 邻居 路 由 器 的 IP 地 址 。 这 个 特性 也 能 被 该 局 
域 刚 上 的 主机 用 于 监听 这 些 路 由 通告 ， 并 相应 地 更 新 各 上 自 的 路 由 
表 。RIP 第 2 版 既 允 许 使 用 多 播 ， 也 允许 使 用 广播 。 


我 们 必须 指出 ， 多 播 可 以 顶 奉 广播 的 上 述 两 个 用 途 (资源 发 现 和 


减少 网 络 分 组 流通 ) 。 我 们 将 在 本 章 靠 后 的 内 容 和 下 一 章 中 闲 述 广播 
存在 的 问题 。9 


Ul 
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20.2 广播 地 址 


我 们 可 以 使 用 记 法 { 子 网 ID， 主 机 ID} 表 示 一 个 IPv4 地 址 ， 其 中 子 
网 ID 表 示 由 子 网 掩 码 (CIDRA 覆盖 的 连续 位 ， 主 机 ID 表示 以 外 
"DE 播 地 址 有 以 下 两 种 ， 其 中 -1 表示 所 有 位 均 为 1 的 字 


(1) 子 网 定向 广播 地 址 ，{ 子 网 ID，-1}。 作 为 指定 子 网 上 所 有 接口 
的 广播 地 址 。 举 例 来 说 ， 如 果 我 们 有 一 个 192.168.42/24 子 网 ， 那 么 
192.168.42.255 就 是 该 子 网 上 所 有 接口 的 子 网 定 同 广播 地 址 。 


通常 情况 下 路 由 器 不 转发 这 种 广播 〈TCPv2 第 226~-227 页 ) ° 
20-2 展 示 了 连接 子 网 192.168.42/24 和 192.168.123/24 的 一 个 路 由 器 。 


于 网 192.168.42 


192.168.42.44 


192.168.123.33 


子 网 192.168.123 
目的 IP = 192.168.42.255 m 


( 单 播 数据 报 ) 
图 20-2 ”路 由 器 转发 子 网 定向 广播 分 组 吗 ? 


路 由 器 在 子 网 192.168.123/24 上 收 到 一 个 目的 地 址 为 192.168.42.255 
( 另 一 个 接口 的 子 网 定向 广播 地 址 ) 的 一 个 单 播 IP 数 据 报 。 路 由 器 通 


常情 况 下 不 把 这 个 数据 报 转 发 到 子 网 192.168.42/24。 有 些 系统 提供 一 
个 允许 转发 子 网 定向 广播 数据 报 的 配置 选项 (TCPv1 附 录 E) ° 


转发 子 网 定 疝 广 播 分 组 反而 能 够 促成 称 为 放大 攻击 
(amplification) 的 一 类 拒绝 服务 攻击 ， 例 如 ， 往 一 个 子 网 定 疝 广 播 地 
址 发 送 ICMP echo 请 求 将 造成 有 多 个 应 答 发 送 给 那个 受害 系统 。 再 加 
上 一 个 伪造 的 源 地 址 ， 会 导致 针对 该 系统 的 带宽 利用 攻击 ， 所 以 最 好 
将 该 配置 选项 关闭 。 


由 于 这 个 原因 ， 最 好 不 要 设计 依赖 子 网 定 同 广播 数据 报 之 转发 的 
应 用 程序 ， 除 非 是 在 可 以 安全 地 开启 该 选项 的 受 挥 环境 中 。 
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(2) 受 限 广播 地 址 ，{-1，-1} 或 255.255.255.255。 路 由 器 从 不 转发 
目的 地 址 为 255.255.255.255 的 IP 数 据 报 。 


诸如 BOOTP 和 DHCP 等 应 用 在 目 举 过 程 中 把 255.255.255.255 用 作 
目的 地 址 ， 因 为 此 时 客户 主机 还 不 知道 服务 器 主机 的 IP 地 址 。 


问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 的 UDP 
数据 报时 主机 怎么 做 ? 大 多 数 主 机 允许 发 送 这 种 广播 数据 报 (假设 进 
程 已 经 设置 了 SO_BROADCAST 套 接 字 选项 ) ， 并 把 该 目的 地 址 转换 成 
外 出 接口 的 子 网 定向 广播 地 址 。BSD/OS 3.0 有 一 个 名 为 
IP_ONESBCAST 的 套 接 字 选项 ， 一 旦 开启 就 不 论调 用 sendto 指 定 的 目 
的 地 址 是 子 网 定 同 广播 地 址 还 是 受 限 广播 地 址 一 律 由 内 核 设 置 为 
255.255.255.255 » 


另 一 个 问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 
的 UDP 数据 报时 多 目的 主机 怎么 做 ? 有 些 系统 只 在 主 接口 (第 一 个 被 
配置 的 接口 ) 上 发 送 单个 广播 分 组 ， 其 中 的 目的 地 址 被 置 为 该 接口 的 
子 网 定向 广播 地 址 〈TCPv2 第 736 页 ) 。 其 他 系统 却 在 每 个 具备 广播 能 
力 的 接口 上 发 送 一 个 该 数据 报 的 副本 。RFC 1122 [Braden 1989] 的 节 
对 于 本 问题 “taking no stand” (未 作 规 定 ) 。 然 而 为 了 便于 移植 ， 如 果 
应 用 进程 需要 从 每 个 具备 广播 能 力 的 接口 发 送 同 一 个 广播 数据 报 ， 它 
就 应 该 首先 获取 各 个 接口 的 配置 (17.67) ， 然 后 对 每 个 具备 广播 能 
力 的 接口 EY 目的 地 址 指定 为 该 接口 之 子 网 定向 广播 地 址 的 
sendto 调 用 。 


20.3” 单 播 和 广播 的 比较 


在 查看 广播 之 前 ， 我 们 有 必要 搞 清 楚 向 一 个 单 播 地 址 发 送 一 个 
UDP 数 据 报时 所 发 生 的 步骤 。 图 20-3 展 示 了 某 个 以 太 网 上 的 3 个 主机 。 


sendto 


| 目的 ITP=192.168 423 端 日 =74333 
1 


目的 闯 H=7433 


I 
H X=UDP | 


IPv4 


192 168 47 2- dit | 192,168.42. 3= 4.48 
192.168.42.255-)"}& 帖 类 型 -oapo  |192.168.42255-1 Hfi 
i 


srpu GEM sy DE 


00:C4:ac:17:bz:3C 


J0:0a3:95:79:b2:54 
I 


ELAKT 00:62:95: 79: be: bias | Tode 
] bl 333-0800 | H RII: =7433 
H TIIP-:32.168.42.3 
协议 -UDP 


图 20-3 ”UDP 数据 报 单 播 示 例 


图 中 以 太 网 子 网 地 址 为 192.168.42/24， 其 中 24 位 作为 子 网 ID， 剩 
下 8 位 作为 主机 ID 。 左 侧 的 应 用 进程 在 一 个 UDP 套 接 字 上 调用 Sendto 
往 卫 地 址 192.168.42.3 端 口 7433 发 送 一 个 数据 报 。UDP 层 对 它 冠 以 一 个 
UDP 首部 后 把 UDP 数据 报 传递 到 IP 层 。IP 层 对 它 冠 以 一 个 IPv4 首 部 ， 
确定 其 外 出 接口 ， 在 以 太 网 情况 下 还 激活 ARP 把 目的 也 地 址 映射 成 相 
应 的 以 太 网 地 址 : 00: :95:79:bc:b4。 该 分 组 然后 作为 一 个 目的 以 
太 网 地 址 为 这 个 48 位 地 址 的 以 太 网 帧 发 送出 去 。 该 以 太 网 帧 的 帧 类 型 
字段 值 为 表示 IPv4 分 组 的 9ox0800。IPv6 分 组 的 帧 类 型 为 0ox86dd ° 


FE SEIL DA MeO SAUTE EA H RJ ELK ee S CS 
的 以 太 网 地 址 (00:04:ac:17:bf:38) 进行 比较 。 有 既然 它们 不 一 致 ， 该 接 
口 于 是 忽略 这 个 帧 。 可 见 单 播 帧 不 会 对 该 主机 造成 任何 额外 开销 ， 因 
为 忽略 它们 的 是 接口 而 不 是 主机 © 


右 侧 主 机 的 以 太 网 接口 也 看 到 该 帧 ， 当 它 比 较 该 帧 的 目的 以 太 网 
地 址 和 自己 的 以 太 网 地 址 时 ， 会 发 现 它 们 相同 。 该 接口 于 是 读 入 整个 
帧 ， 读 入 完毕 后 可 能 产生 一 个 硬件 中 断 ， 致 使 相应 设备 驱动 程序 从 接 
口内 存 中 读 取 该 帧 。 既 然 帧 类 型 为 0Ix9800， 该 帧 承载 的 分 组 于 是 被 
置 于 IP 的 输入 队列 。 
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当 IP 层 处 理 该 分 组 时 ， 它 首先 比较 该 分 组 的 目的 IP 地 址 
(192.168.42.3) 和 自己 所 有 的 IP 地 址 。 (我 们 知道 主机 可 以 多 宿 ， 另 
外 回顾 一 下 我 们 在 8.8 节 就 强 端 系统 模型 和 弱 端 系统 模型 进行 的 讨 
论 。) 既然 这 个 目的 地 址 是 本 主机 自己 的 IP 地 址 之 一 ， 该 分 组 于 是 被 


0 
~ Tv 


IP 层 接着 查看 该 分 组 IPv4 首 部 中 的 协议 字段 ， 其 值 为 表示 UDP 的 
17。 该 分 组 承载 的 UDP 数据 报 于 是 被 传递 到 UDP 层 。 


UDP 层 检查 该 UDP 数据 报 的 目的 端口 《如果 其 UDP 套 接 字 已 经 连 
接 ， 那 么 还 检查 源 端 口 ) ， 接 着 在 本 例子 中 把 该 数据 报 置 于 相应 套 接 
字 的 接收 队列 。 必 要 的 话 UDP 层 作为 内 核 一 部 分 唤醒 阻塞 在 相应 输入 
操作 上 的 进程 ， 由 该 进程 读 取 这 个 新 收取 的 数据 报 。 


本 例子 的 关键 点 是 单 播 1P 数 据 报 仅 由 通过 目的 IP 地 址 指定 的 单个 
主机 接收 。 子 网 上 的 其 他 主机 都 不 受 任何 影响 。 


933 
我 们 接着 考虑 一 个 类 似 的 例子 : 同样 的 子 网 ， 不 过 发 送 进程 发 送 


的 是 一 个 目的 地 址 为 子 网 定向 广播 地 址 192.168.42.255 的 数据 报 。 图 
20-4 展 示 了 这 个 例子 。 
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图 20-4 ”UDP 数据 报 广 播 示 例 


当 左 侧 的 主机 发 送 该 数据 报时 ， 它 注意 到 目的 IP 地 址 是 所 在 以 太 
网 的 子 网 定向 广播 地 址 ， 于 是 把 它 映射 成 48 位 全 为 1 的 以 太 网 地 址 : 
ff: ff:ff:ff:ff:ff。 这 个 地 址 使 得 该 子 网 上 的 每 一 个 以 太 网 接口 
都 接收 该 帧 ， 图 中 右 侧 两 个 运行 IPv4 的 主机 自然 都 接收 该 帧 。 既 然 以 
太 网 帧 类 型 为 0x9869， 这 两 个 主机 于 是 都 把 该 帧 承载 的 分 组 传递 到 IP 
层 。 既然 该 分 组 的 目的 下地 址 匹配 两 者 的 广播 地 址 ， 并 且 协 议 字 段 为 
17 (UDP) ， 这 两 个 主机 于 是 都 把 该 分 组 承载 的 UDP 数据 报 传递 到 
UDP。 


右 侧 的 那个 主机 把 该 UDP 数据 报 传递 给 绑 定 端口 520 的 应 用 进程 。 
一 个 应 用 进程 无 需 就 为 接收 广播 UDP 数据 报 而 进行 任何 特殊 处 理 : "E 
只 需要 创建 一 个 UDP 套 接 字 ， 并 把 应 用 的 端口 号 捆绑 到 其 上 。 (我 们 
假设 捆绑 的 也 地 址 是 典型 的 INADDR_ANY ° ) 


然而 中 间 的 那个 主机 没有 任何 应 用 进程 绑 定 UDP 端口 520。 该 主机 
的 UDP 代码 于 是 丢弃 这 个 已 收取 的 数据 报 。 该 主机 绝 不 能 发 送 一 个 
ICMP 端 口 不 可 达 消 息 ， 因 为 这 么 做 可 能 产生 广播 风暴 (broadcast 


storm) ， 即 子 网 上 大 量 主 机 几乎 同时 产生 一 个 响应 ， 导 致 网 络 在 一 段 
时 间 内 不 可 用 。 另 外 发 送 该 数据 报 的 主机 如 何 处 理 这 些 ICMP 出 错 消 妃 
也 成 问题 : 有 的 接收 主机 报告 了 错误 ， 有 的 未 报告 ， 那 得 怎么 办 ? 
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我 们 还 在 图 中 表示 出 由 左 侧 主机 发 送 的 数据 报 也 被 递送 给 自己。 
这 是 广播 的 一 个 属性 ， 根 据 定 义 ， 广 播 分 组 去 往 子 网 上 的 所 有 主机 ， 
包括 发 送 主机 自身 (TCPv2%109~110M) 。 我 们 假设 发 送 应 用 进程 
还 绑 定 自己 要 发 送 到 的 端口 (520) ， 这 样 它 将 收 到 自己 发 送 的 每 个 广 
播 数据 报 的 一 个 副本 。 (然而 一 般 说 来 ， 发 送 UDP 广 播 数 据 报 的 应 用 
进程 并 不 需要 捆绑 这 些 数据 报 的 目的 端口 。) 


我 们 在 图 中 展示 了 由 IP 层 或 数据 链 路 层 执行 的 一 个 逻辑 回馈 ， 通 
过 这 个 回馈 ， 每 个 数据 报 被 复制 一 份 并 沿 协 议 栈 向 上 传送 (TCPv258 
109—-11071) 。 网 络 子 系统 也 可 以 使 用 物理 回馈 ， 不 过 这 么 做 在 网 络 
存在 故障 条 件 下 (例如 没有 终结 的 以 太 网 ) 会 导致 问题 。 


本 例 展 示 了 广播 存在 的 根本 问题 ， 子 网 上 未 参加 相应 广播 应 用 的 
所 有 主机 也 不 得 不 沿 协议 栈 一 路 向 上 完整 地 处 理 收取 的 UDP 广 播 数据 
报 ， 直 到 该 数据 报 历 经 UDP 层 时 被 丢弃 为 上 。 (回顾 我 们 就 图 8-21 展 
开 的 讨论 。) 另外 ， 子 网 上 所 有 非 IP 的 主机 (例如 运行 Novell IPX 的 主 
NL) 也 不 得 不 在 数据 链 路 层 接收 完整 的 帧 ， 然 后 再 丢弃 它 (假设 这 些 
主机 不 支 该 帧 的 帧 类 型 ， 对 于 IPv4 分 组 就 是 90xX0800) 。 要 是 运行 着 以 
较 高 速率 产生 IP 数 据 报 的 应 用 (例如 音频 、 视 频 应 用 ) ， 这 些 非 必 要 
的 处 理 有 可 能 严重 影响 子 网 上 这 些 其 他 主机 的 工作 。 我 们 将 在 下 一 章 
看 到 多 播 是 如 何在 一 定 程度 上 解决 本 问题 的 。 


我 们 在 图 20-4 中 选择 UDP 端口 为 520 是 有 意 的 。 该 端口 由 routed 
守护 进程 用 于 交换 RIP 分 组 。 一 个 子 网 上 使 用 RIP 版 本 1 的 所 有 路 由 器 
每 隔 30 秒 钟 发 送 一 个 UDP 广播 数据 报 。 如 果 该 子 网 上 存在 200 个 系统 
(包括 2 个 使 用 RIP 的 路 由 器 ) ， 那 么 作为 主机 的 其 余 198 个 系统 将 不 
得 不 每 隔 30 秒 钟 就 处 理 (HEAR) 一 次 这 些 广播 数据 报 (假设 这 198 个 
主机 无 一 运行 routed) 。RIP 第 2 版 改 用 多 播 解决 这 个 问题 。 


20.4 ”使 用 广播 的 dg_cli 图 数 


我 们 再 次 修改 dg_c1li 函 数 ， 这 次 允许 它 回 UDP 标 准 daytime 服 务 
器 (图 2-18) 广播 发 送 请 求 ， 然 后 显示 所 有 应 答 。 我 们 对 main 函 数 
图 8-7) 所 做 的 唯一 改动 是 把 目的 端口 号 改 为 13: 


servaddr.sin_port = htons(13); 


我 们 首先 随 未 修改 的 dg_c1li 函 数 (图 8-8) 编译 经 修改 的 main 函 
数 ， 并 在 主机 freebsd 上 运行 它 。 


freebsd % udpcli01 192.168.42.255 
hi 
sendto error: Permission denied 
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fip 1 BOE VERUS — 1 EUKBPEBEDL FAE EE ^ R 
们 键入 一 行文 本 ， 程 序 调 用 sendto， 结 果 返 回 EACCES 错 误 。 我 们 收 
到 这 个 错误 的 原因 在 于 ， 除 非 显 式 告诉 内 核 我 们 准备 发 送 广播 数据 
报 ， 否 则 系统 不 允许 我 们 这 么 做 。 我 们 通过 设置 SO_BROADCAST 矢 接 
字 选 项 来 做 到 这 一 点 (7.57) ° 


源 自 Berkeley 的 实现 实施 这 种 健全 性 检查 。 而 对 于 Solaris 2.5， 即 
使 不 指定 S0_BROADCAST 套 接 字 选项 也 能 接受 目的 地 址 为 广播 地 址 的 
数据 报 。POSIX 规 范 要 求 发 送 广播 数据 报 必须 设置 该 套 接 字 选项 。 


对 于 不 存在 SO_BROADCAST 套 接 字 选项 的 4.2BSD 来 说 ， 广 播 是 一 
L1 。 该 选项 增设 到 4.3BSD 之 后 ， 任 何 进程 都 允许 设置 它 以 执 
行 广播 操作 。 


我 们 现在 按 图 20-5 所 示 方 式 修改 dg_cli 函 数 。 这 个 版 本 设置 
SO BROADCAST 2 RZ FHMF tz RES s 内 收 到 的 所 有 应 答 。 


beastidectibcastl.c 


1 #include "uap.h" 


2 static void recvfrom_alemalint) ; 


3 void 

4 dg cli(FILE *fp, int sockfd, cona- SA *pservadsr, socklen t servien) 
5 1 

6 int ; 

7 conct int cn = i; 

6 char sendline[ÍNAXLIND , recvline[MAXLINB + 11; 

4 sockler t len; 

10 struct sockaddr *preply adr; 

11 preply addr = Malloc(servien); 

12 Setaockopt(sccxfd, SOL_SOCKET, SO_BROADCAST, &cn, aizecf(on)!; 
13 Signal (SIGALRM, recvfrom sl&rm!; 

14 while (Foets(sendline, MAXLINE, f2) !z WNT) { 

15 Sendto(sockfd, sendline, strlen(serdll:re), 0, pservaddr, servlen); 
1é a.arm[5); 

17 tor (7; ! f 

18 len = servilcn; 

19 n = recvzrom(sockEd, recvline. MBXLINE, 2, preply_acdr. é&len); 
20 if in< 0) f 
21 if :errüo == EINTR) 

22 break; /* waited leng enough for replies */ 
23 else 
24 err sys!'recvfrcn error"): 
25 ) eise | 
26 recvline[n, = 0; /* null terminate */ 
27 printf ("Erom ts: ts", 
28 Sock_atop_hos=ipreply_addr, len), secvline) ; 
29 } 

an ) 

31 ) 

32 freeipreply addr); 

33 } 


34 static void 
35 recvfrom alarn(int signo! 
36 | 
37 return; /* juet interrupt the recvtrom() */ 
30 ] 
bcasvegohbosstl.c 


图 20-5 广播 请 求 的 dg_c1li 画 数 
给 服务 器 地 址 分 配 空间 ， 设 置 套 接 字 选 项 


11-13 malloc 为 由 recvfrom 返 回 的 服务 器 地 址 分 配 空间 。 设 
置 SO_BROADCAST 套 接 字 选项 ， 并 安装 一 个 SIGALRM 信 号 处 理 函 数 。 


从 标准 输入 读 取 一 行 ， 发 送 至 套 接 字 ， 读 取 所 有 应 答 


14-24 IFAS 〈 即 fgets 和 sendto) 类 似 该 函数 以 前 的 版 
本 。 然 而 既然 发 送 的 是 一 个 广播 数据 报 ， 我 们 可 能 因此 收 到 多 个 应 
答 。 我 们 在 一 个 循环 中 调用 recvfrom， 并 显示 在 5 秒 钟 内 收 到 的 所 有 
应 答 。5 秒 钟 后 系统 产生 SIGALARM 信 号 ， 其 信号 处 理 函 数 被 调用 ， 导 
致 recvfrom 返 回 EINTR 错 误 ° 


输出 收 到 的 每 个 应 答 

25-29 我 们 对 收 到 的 每 个 应 答 都 调用 sock_ntop_host， 让 该 
函数 以 点 分 十 进 制 数 格式 返回 服务 器 的 了 地 址 《假设 IPv4 情 形 ) 。 服 
务 器 IP 地 址 和 来 自 它 的 应 答 一 道 显示 。 


如 果 指 定 192.168.42.255 这 个 子 网 定 癌 广播 地 址 运行 本 程序 ， 我 们 
得 到 如 下 结果 : 


freebsd % udpcli01 192.168.42.255 

hi 
.168.42.2: Sat Aug 2 16:42:45 2003 
.168.42.1: Sat Aug 2 16:42:45 2003 
.168.42.3: Sat Aug 2 16:42:45 2003 


.168.42.3: Sat Aug 2 16:42:57 2003 
.168.42.2: Sat Aug 2 16:42:57 2003 
.168.42.1: Sat Aug 2 16:42:57 2003 


我 们 必须 每 次 键入 一 行文 本 以 产生 UDP 数据 报 输出 。 我 们 每 次 收 
到 3 个 应 答 ， 其 中 有 一 个 来 目 发 送 主机 本 号。 如 前 所 述 ， 广 播 数 据 报 的 
目的 主机 是 包括 发 送 主机 在 内 的 接 入 同一 个 子 网 的 所 有 主机 。 所 有 应 
2 TAM ， 因 为 作为 其 目的 地 址 的 请 求 数据 报 源 地 址 是 一 
| [e] 


所 有 系统 都 报告 同样 的 时 间 ， 这 是 因为 它们 都 运行 NTP。 


IP 分 片 和 广播 


源 自 Berkeley 的 内 核 不 允许 对 广播 数据 报 执 行 分 片 。 对 于 目的 地 
址 是 广播 地 址 的 IP 数 据 报 ， 如 果 其 大 小 超过 外 出 接口 的 MTU， 发 送 它 
的 系统 调用 将 返回 EMSGSIZE 错 误 (TCPv2 第 233~-234 页 ) 。 这 是 一 
个 自 BSD4.2 以 来 就 存在 的 决策 。 不 允许 内 核对 广播 数据 报 执 行 分 片 的 


理由 并 不 充分 ， 感 觉 上 十 既然 广播 已 经 施加 给 网 络 相当 大 的 负担 ， 再 
因 分 片 而 造成 这 个 负担 倍 乘 片段 的 数量 天 更 不 应 该 。 
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我 们 可 以 使 用 图 20-5 中 的 程序 观察 这 种 情形 。 我 们 将 标准 输入 重 
定 问 目 一 个 舍 有 长 度 为 2000 子 节 的 单个 文本 行 的 文件 ， 它 将 导致 在 以 
TRAE ACHE aN re 


sendto error:Message too long 

AIX、FreeBSD 和 MacOS 都 实施 了 这 种 限制 。Linux、Solaris 和 HP- 
UX 都 允许 对 目的 地 址 为 广播 地 址 的 数据 报 进行 分 片 。 然 而 为 了 便于 移 
植 起 见 ， 需 要 广播 的 应 用 程序 应 该 使 用 SIOCGIFMTU ioct1 确 定 外 
出 接口 的 MTU， 从 中 扣除 人 P 目 部 和 UDP 首 部 的 长 度 得 到 最 大 净 集 大 
小 。 如 果 是 在 局 域 网 上 ， 那 么 可 以 把 广播 数据 报 大 小 限制 在 1472 字 廊 
以 内 (1472 根 据 值 为 1500 的 以 太 网 MTU 得 出 ) ， 因 为 局 域 网 中 以 太 网 
的 MTU 通 常 是 最 小 的 。 


20.55 “竞争 状态 


当 有 多 个 进程 访问 共享 的 数据 ， 而 正确 结果 取决 于 进程 的 执行 顺 
序 时 ， 我 们 称 这 些 进程 处 于 竞争 状态 (race condition) 。 由 于 在 典型 
的 Unix 系 统 中 进程 的 执行 顺序 取决 于 每 回 都 会 发 生变 化 的 众多 因素 ， 
因此 处 于 竞争 状态 的 进程 有 时 产生 正确 的 结果 ， 有 时 产生 不 正确 的 结 
果 。 最 难 调试 的 一 类 竞争 状态 是 通常 情况 下 结果 正确 ， 偶 尔 才 发 生 结 
果 不 正 确 现象 的 那些 。 我 们 将 在 第 26 章 讨论 互 斥 变量 和 条 件 变 量 时 进 
一 步 探讨 竞争 状态 类 型 。 竞 争 状 态 对 于 线程 化 编程 始终 是 一 个 关注 
点 ， 因 为 在 线程 之 间 共 享 着 如 此 之 多 的 数据 (如 所 有 的 全 局 变量 ) 。 
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了 解 竞争 状态 问题 最 简单 方法 是 考察 例子 。 图 20-5 中 存在 一 个 竞 
PARA; 花 几 分 钟 时 间 细 读 一 下 ， 看 看 你 能 否 找 出 它 来 。 (提示 : 当 
信和 号 被 递交 时 我 们 可 能 正在 哪里 执行 ? ) 你 还 可 以 按 如 下 做 法 强行 产 
生 该 竞争 状态 : 把 alarm 的 参数 从 5 改 为 1， 在 printf 紧 前 增加 
sleep(1) ° 


对 函数 做 了 这 些 修改 后 我 们 键入 第 一 个 输入 文本 行 ， 它 被 作为 一 
个 广播 数据 报 发 送出 去 ，1 秒 钟 的 alarm 报 警 时 钟 也 同时 启动 。 我 们 随 
后 阻塞 在 recvfrom 调 用 中 ， 第 一 个 应 答 可 能 在 数 训 秒 内 到 达 我 们 的 
套 接 字 。 该 应 答 由 recvfrom 返 回 后 ， 我 们 进入 1 秒 钟 的 睡 眼 期 。 其 他 
应 答 陆续 到 达 后 被 置 于 我 们 的 套 接 字 接 收 缓冲 区 。 然 而 就 在 我 们 睡 眼 
期 间 ，alarm 定 时 器 到 时 ， 从 而 产生 SIGALRM 信 号 : 我 们 的 信号 处 理 
函数 被 调用 ， 而 且 它 只 是 返回 并 中 断 让 我 们 阻塞 在 其 中 的 Sleep 调 
用 。 我 们 接着 循环 回去 ， 每 读 入 一 个 已 经 在 套 接 字 接收 缓冲 区 中 排队 
的 应 答 就 先 暂停 1 秒 钟 再 显示 其 内 容 。 当 处 理 完 所 有 的 应 答 时 我 们 再 次 
阻塞 在 recvfrom 调 用 中 ， 而 此 时 定时 器 已 不 再 运转 ， 我 们 于 是 将 永 
远 阻 塞 在 recvfrom 中 。 这 里 的 根本 问题 是 .， 尽管 我 们 的 意图 是 让 信 


号 处 理 函 数 中 断 某 个 阻塞 中 的 recvfrom， 然 而 信号 却 可 以 在 任何 时 
刻 被 递交 ， 当 它 被 递交 时 ， 我 们 可 能 在 无 限 for 循 环 中 的 任何 地 方 执 
fT ° 


" Eng 论 本 问题 的 4 个 解决 办 法 ， 其 中 1 个 是 不 正确 的 ， 另 
3 个 是 Jj? 


20.5.1 阻塞 和 解 阻 塞 信和 号 


第 一 个 (不 正确 的 ) 办 法 是 在 执行 for 循 环 的 其 他 部 分 期 间 通 过 
阻塞 信号 的 递交 来 减 小 出 错 的 窗口 。 图 20-6 给 出 了 这 个 新 版 本 。 
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Ecastideclbcast3.z 
1 &iuclude 'unp. :1" 


2 static void vecvfron_alarm(inr) ; 

^ void 

4 dg cli(FILS “fp, int sockic, censt SA -pservaddr, socklen - servlen) 
51 

€ int n; 

4 corst int om = 1; 

E char senilins[MAXLINE), recvline (MAXLINE + 1); 

5 eigset t sigsst alrm, 

1C eocklen = len; 

11 struct sockad?r *preply addr; 

lä preply addy = Mallociservlen) ; 

13 Setscckopt(sockfd, 3O0L SOCKET, SC_BROADCAST, son, sizeof (on)!,; 
14 S:gemrptyseti&sigset alrm); 

1s Sicaddse-(asicset_alrm, STSALRM); 

1€ Sicnal (SIGALKM, rscvfrom alarm); 

17 while (Pacts(sendline, MAXLINE, tp! != NULL) { 

1E Senitolsockfd. sencline, s-rlen(senóline). 0, pservaddr, servlen); 
15 alarm!5): 

ac for (11) 4 

21 len = servlen; 

22 Sigprcemask (STG_IMBLOCK, &sigselb al rm, NULDL!; 

23 n = recvfromisockfc, recvlice, MAXLINS, ©. prezly addr. len); 
24 Sigprccmask(SIC BLCCK, &sigset_alrm, NULL! ; 

25 it (n< 0 f 

2€ if (errno == EINIR) 

25 break; /* waited long enough far repliea */ 
2€ elss 

25 err_sya("reevtrom crror"|; 

3c | eise { 

31 -scuvline[n] = C; /* mr]! terminare */ 

32 printf (| ‘from $s: $a", 

33 Sock ntop host (preply addz, len), recvline}; 
34 } 

35 $ 

Ac 

35 free (preply_acdr) ; 

3€ 


39 Etatic void 
4C re^vfrcnm alz*m(in- simo) 


42 return, /* just interrupt the recvfrom(! */ 


beasvdgllacasr3.c 


图 20-6 在 for 循 环 内 执行 期 间 阻 塞 信号 (不 正确 办 法 ) 
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声明 信号 集 并 初始 化 


14-15 声明 一 个 信号 集 ， 把 它 初始 化 为 空 集 
(sigemptyset) ， 再 打开 与 SIGALRM 对 应 的 位 (sigaddset) 。 


解 阻塞 信号 和 阻塞 信号 


21-24 在 调用 recvfrom 前 ， 我 们 解 阻 塞 SIGALRM 信 和 号 〈 以 便 
我 们 被 阻塞 在 该 调用 期 间 该 信号 能 被 递交 ) ; 在 recvfrom 返 回 后 ， 
我 们 立即 阻塞 该 信和 号。 如果 SIGALRM 信 号 产生 ( 即 定时 器 时 间 到 ) 时 
该 信号 处 于 被 阻塞 期 间 ， 那 么 内 核 将 记 住 这 个 事实 ， 但 是 不 递交 该 信 
5 〈 即 调用 其 信号 处 理 函 数 ) ， 直 到 该 信号 被 解 阻塞 。 这 就 是 信号 的 
产生 与 递交 之 间 本 质 的 区 别 。APUE 第 10 章 提供 了 POSIX 信 号 处 理 所 有 
这 些 方面 的 额外 细节 。 


如 果 编 译 运 行 本 程序 ， 它 看 起 来 工作 正常 ， 然 而 存在 竞争 状态 的 
六 多 数 程序 在 六 多 数 情 况 下 照样 工作 正 第 ! 该 程序 仍然 存在 的 一 个 问题 
是 : 解 阻塞 信号 、 调 用 recvfrom 和 阻塞 信号 都 是 互相 独立 的 系统 调 
用 。 如 果 SIGALRM 信 号 恰 在 recvfrom 返 回 最 后 一 个 应 答 数 据 报 之 后 
与 接着 阻塞 该 信号 之 间 递 交 ， 那 么 下 一 次 调用 recvfrom 将 永远 阻 
塞 。 我 们 已 经 缩小 了 出 错 的 窗口 ， 但 是 问题 依然 存在 。 


这 种 办 法 的 一 个 变 体 是 在 信号 被 递交 后 让 信和 号 处 理 钞 数 设 鞋 一 个 
全 局 标志 。 


static void 
recvfrom alarm(int signo) 


had_alarm = 1; 
return; 


} 


每 次 调用 alarm 之 前 把 该 标志 初始 化 为 0。 我 们 的 dg_c1i 函 数 在 
调用 recvfrom 之 前 检查 这 个 标志 ， 如 果 其 值 不 为 0 就 不 再 调用 


recvfrom » 


for (; ;) t 
len - servlen; 
Sigprocmask(SIG UNBLOCK, &sigset alrm, NULL); 


if (had alarm -- 1) 
break; 
n - recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 


如 果 SIGALRM 信 号 是 在 它 被 阻塞 期 间 ( 即 自 上 一 次 recvfrom 返 
回 后 ) ， 或 者 在 它 被 这 段 代码 解 阻 塞 之 时 产生 ， 那 么 它 将 在 
sigprocmask 返 回 之 前 弟 弟 交 并 设置 标志 。 然 而 在 测试 标志 和 调用 


recvfrom 之 间 仍 然 存 在 一 个 较 小 的 时 间 窗 口 ， 期 间 SIGALRM 信 和 号 可 
能 产生 并 递交 如 果真 发 生 该 情况 ，recvfrom 调 用 将 永远 阻塞 (4 
然 假 定 不 再 收 到 额外 的 应 答 ) 。 


20.5.2 ”用 pselect 阻 塞 和 解 阻 塞 信号 


正确 办 法 之 一 是 使 用 pselect (6.9 节 ) ， 如 图 20-7 所 示 。 


Ul 
I 
上 一 


beastádaclibeasid c 
1 #include "unz.h" 


2 static voice reculroum alarm(iuL); 


3 void 

4 da cli(FILS «fo, int sockfd, sonst SA *pservacdr, sccklen t servlen} 
sí 

6 inc n; 

" const int or = 1; 

8 char sendlins[MAXLINE], recvline[MAXLINE + 1]: 

9 fà sel rset; 

2 wicwel L wicset «lom, wigswz «mnpiov; 

1 sock ant len: 

1 siruct scckacdr ^zzeply addr: 

i3 preply_addr = Malloc/rervlen!: 

1e 5Ece-sockcpt/seckfd, SUL SUCK, SO BHRUADCAST. &or, sizeof (con) 1 1; 
15 PD_FRRO(orast |, 

16 Sicempt yset (&siqset_eupty) ; 

a Sicempt yset (&siqset_alrw) ; 

18 Sicadiset (&sigset alru, SIGALRM); 

19 Sicnal(iSIGALRM, recvfrom alarm); 

20 while (Fgetc(cendline, MAXLINE, fp) t= NULL) 1 

21 Sendtoiseckf£é, sendling, strlenisendline), 0. pservaddr, servien); 
22 Sicprocmask(£lLG SLOCK, asigset_al=m, NULL); 

23 alami), 

24 for [ar 1 

25 FD_SET‘sockfd, &rpeci; 

26 n= peelectiscckfdil, &roet, NULL, NULL. MULL. kcigeecz enmpty!i; 
27 if (n < or 4 

23 if icrrno -= EINTR) 

29 brcak; 

30 czoo 

31 arr eyst(*psalect error"); 

2 ) alee if [n t= 1) 

33 err syB('peelec- errc returned $2", n); 

34 ien = strvicn; 

35 n = kKeevfromiseckfé, r2ovlinc, MAXLINE, 0, preply_addr, &lcn'; 
36 recvlincin] = 0; f* ruil terminate */ 

" printf ("from às: ba", 

38 Scck n-op hcat/preply addr, len), recvline): 

39 ] 

40 ] 

41 frceipreply addr): 

42 } 


43 atatic voic 

44 recvf-cm alarmiint signo) 

45 ( 

46 return; {* just interrupt the racvtrom() */ 


beuast/dlaclibeusid c 


图 20-7 ”使 用 pselect 阻 塞 和 解 阻塞 信号 


22-33 ”阻塞 SIGALRM 并 调用 pselect。pselect 最 后 一 个 参 
数 是 指 同 sigset_empty 变 量 的 一 个 指针 。sigset_empty 是 一 个 没 


有 任何 信号 被 阻塞 的 信号 集 ， 也 就 是 说 其 所 有 信和 号 都 是 解 阻 塞 的 。 
pselect 保 存 当 前 信号 掩 码 〈 其 中 只 有 SIGALRM 信 和 号 被 阻塞 ) ， 测 试 
指定 的 描述 符 ， 如 果 必 要 则 把 进程 信号 掩 码 设置 为 空 集 再 阻塞 进程 。 
然而 在 返回 之 前 ，pselect 把 进程 信号 掩 码 恢复 成 刚 被 调用 时 的 值 。 
pselect 的 关键 点 在 于 : WEBER DUUM D TC faf 
码 这 3 个 操作 在 调用 进程 看 来 自 成 原子 操作 。 


34-38 ”如 果 套 接 字 变 为 可 读 ， 那 就 调用 recvfrom， 我 们 知道 
它 不 会 阻塞 。 


正如 6.9 节 所 提 ，pselect 是 一 个 新 增 的 POSIX 画 数 ; 在 图 1-16 中 
的 所 有 系统 中 ， 只 有 FreeBSD 和 Linux 支 持 它 。 无 论 如 何 ， 我 们 在 图 20- 
8 中 给 出 了 它 的 一 个 尽管 不 正确 然而 简单 的 实现 。 给 出 这 个 不 正确 实现 
的 原因 在 于 展示 pselect 涉 及 的 3 个 步 又， (1) 保存 当前 信号 掩 码 ， 
并 把 信号 掩 码 设置 为 由 调用 者 指定 的 值 ，(2) 测试 描述 符 ， 以 及 

(3) 恢复 信号 掩 码 。 


= — dikypseiecic 
© fircluce "unp. h" 


10 int 
ii peelect(int nás, fd set "reer, fà set *wset, fd sət *xset, 
^ 


12 const struct timespec "ts, const sigset t *sigmask! 

13 

14 int n; 

15 struct btimeva Lv? 

16 siqze- t cavemses; 

1 it (ts t= NULL) ( 

18 tv.tv sec = ts-»tv se- 

19 tv.tv usec = ts-stv nsec / 1020; /* nanosec -> micresec */ 
20 

al eigoroemask (SIS sEIMASK, eigmss*, &aavemask;) ; /* caller's maak */ 
22 n s selectinfds, rsez, wset, xsst, (ts == NULL) 7 NULL : &tvi; 
a3 siqorocmask(s.o sEIMASK, &savemask, NULL); /* restore mask */ 
24 return in); 

es 、 


üt/pseieci.c 


图 20-8 pselect 的 一 个 简单 但 不 正确 的 实现 


20.5.3 ”使 用 sigsetjmp 和 siglongjmp 


解决 竞争 状态 问题 的 另 一 个 正确 办 法 并 非 利 用 信号 处 理 函 数 中 断 
被 阻塞 系统 调用 的 能 力 ， 而 是 从 信号 处 理 函 数 中 调用 sigLlongjmp ° 
我 们 称 siglongjmp 为 非 局 部 跳 转 (nonlocal goto) ， 因 为 使 用 它 可 以 
从 一 个 函数 跳 转 回 另 一 个 函数 。 图 20-9 展 示 了 这 个 技术 。 
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EcastideclibcastS.c 


tincluze "unp.h* 
fincluze *sec]mp.ns 


E) oe 


3 static void recvtrom alsrm;inl]; 
4 static sigjme buf jmpbuf ; 


5 void 

€ dg cli (FILE *fp, int sockfd, const SA *pservadcr, socklen t serven) 
"5 4 

6 int 3 

4 const int cn = 1; 

10 char sendline[MAXLIHE:., recvline[MAXLINE + 1]; 

11 Socklen t len; 

12 struct sockaddr *preply azdr, 

13 preply_acdr = Mallu: (servile) > 

14 Sets2ckopt(sockfd, SOL SOCKET, SO BROADCAST, acn, siízecf(on)!; 
15 Signsl(SIGALRM, recvirom a.srmj; 

16 while (Psets(sendline, MAXLINE. fp) !- NULL] | 

17 Senmd-o(sockfd, serdl-ne, strlen(serdline), 0, pservad2r, servlen); 
1é alarm5); 

iy for (7 7! { 

26 if /asigsctjup!jmpzuf, 1! != Qi 

21 ureak; 

23 len ~ servlen; 

23 n= Recvzrom(cockEd, recvline, M^XLINE, J, preplv azdr, &len); 
24 recvlinefnl = 0; /* null terwinace */ 

25 printf ("tron ts: kts", 

2€ Sock ntop hostí(prseply addr, len], recvlíne;; 

27 ) 

26 } 

29 frretprep] y_addr ; 

3u ) 


31 setstic void 
32 recvfrom alarn(int signo! 


34 siglonzj"p(jmvp2uf, 1!; 


Ecasvdgol'ibesst5.c 


图 20-9 ”从 信号 处 理 函 数 中 使 用 sigsetjmp 和 siglongjmp 


分 配 跳 转 缓冲 区 


4 分 配 一 个 将 由 本 函数 及 其 信号 处 理 函 数 使 用 的 跳 转 缓冲 区 。 
调用 sigsetjmp 


20-23 从 dg_c1Li 函 数 中 直接 调用 sigsetjmp 时 ， 它 在 建立 跳 
转 缓冲 区 后 返回 0。 接 着 调用 recvfrom。 


处 理 SIGALRM 并 调用 siglongjmp 


31-35 当 SIGALRM 信 和 号 被 递交 时 ， 我 们 调用 siglongjmp。 这 
会 使 dg_c1i 函 数 中 的 sigsetjmp 返 回 ， 返 回 值 为 sijglongjmp 的 第 
二 个 参数 (1) ， 它 必须 是 一 个 非 0 值 。sigsetjmp 返 回 会 导 人 致 
dg_cli 中 的 for 循 环 结 束 。 


以 这 种 方式 使 用 sigsetjmp 和 siglongjmp 确 保 我 们 不 会 因为 信 

号 递交 时 间 不 当 而 永远 阻塞 在 recvfrom 调 用 中 。 发 生 问题 的 唯一 潜 
在 条 件 是 信号 在 printf 处 理 输出 的 过 程 中 被 递交 。 我 们 可 以 从 
printf 中 跳出 ， 并 返回 sigsetjmp。 不 过 这 可 能 会 使 printf 的 私 
有 数据 结构 前 后 不 一 致 。 为 了 防止 出 现 这 种 情况 ， 我 们 应 该 把 图 20-6 
中 的 信号 阻塞 和 解 阻塞 办 法 结合 非 局 部 跳 转 办 法 一 起 使 用 。2 但 这 会 
使 该 解决 方法 变 得 很 不 灵 便 ， 因 为 任何 可 能 从 中 中 上 断 的 低 性 能 函数 周 
围 都 可 能 发 生 信 号 阻塞 。 


20.5.4 ”使 用 从 信和 号 处 理 函 数 到 主 控 函 数 的 IPC 


解决 竞争 状态 问题 还 有 一 个 正确 办 法 。 本 办 法 不 是 让 信号 处 理 函 

数 简 单 地 返回 并 期 望 该 返回 能 够 中 断 阻塞 中 的 recvfrom， 而 是 让 信 
号 处 理 函 数 使 用 IPC 通 知 主 控 函 数 dg_c1i 定 时 器 已 到 时 。 这 与 我 们 早 
先 给 出 的 证 信号 处 理 函 数 在 定时 器 时 间 到 时 设置 全 局 变量 had_alarm 
的 提议 多 少 有 些 类 似 ， 因 为 该 全 局 变量 被 用 作 IPC 的 一 种 形式 

(dg_cli 函 数 和 信号 处 理 函 数 之 间 的 共享 内 存 区 ) 。 使 用 全 局 变量 
办 法 的 问题 在 于 主 控 函 数 必须 测试 该 变量 ， 如 果 信 号 的 递交 和 变量 的 
测试 几乎 同时 发 生 ， 竞 争 状 态 的 时 序 问 题 就 会 发 生 。 


我 们 在 图 20-10 中 使 用 的 是 进程 内 部 的 一 个 管道 。 当 定时 右 时 间 人 到 
时 ， 信 和 号 处 理 画 数 将 癌 该 管道 中 写 出 一 个 字 市 ，dg_cli 函 数 读 入 该 


字 世 以 决定 何 时 终 目 for 循环 。 使 得 本 方法 如 此 完美 的 是 我 们 使 用 
select 来 检测 该 管道 是 否 变 为 可 读 。select 同 时 测试 套 接 字 和 管道 
的 可 读 性 。 


beasvdectihcas4.c 

1 #inclide nn b” 
2 static void vecefrem alasrmiimnt!; 
3 staris int pipafd[2); 
4 void 
5 dc cliiFZLE ‘fv, int sevafd, const SA ^pservaddz, socklwn t servled) 
e[ 
7 int n, maxfdpi:; 
8 const inz on = 1; 
9 char send ine (MOSLINE!. recsv ine [HAXLINE + 1]; 
10 fd oct rest; 
11 socklen - len; 
12 struct sockadd- *breplv acdr, 
13 areply_addr = Mallocise-vien) ; 
14 Aetmcckoptisoncktd, SN SOCXET, SC FSORDCAST, Son, sirzeofiíon; |: 
15 Pipe (pines) : 
16 maxfdpl = maxíscckfd, pipefd'/0]! + 1; 
i? PO_ZERC (érset} : 
1g síignal(GIGALRM, rcowfror alaírm : 
19 while (Pqets(sendlins, MAXLINE, tp) !- NULLI f 
20 Hemdtotanelrfd, send ine, strlen(sendline;, U, paervadür, aerian); 
21 acanm(i); 
22 Pee bug 14 
23 FD SET (seckfa, Lraer); 
3 FD SET[(pipefd[O0., &rsset]; 
25 ib ; im - select (waxtdpl, &rset, NULL, NJLL, NULL)) = 0; { 
26 if (ecrrnó mm FINTR) 
37 continue + 
28 ese 
29 err nya("ecl^nct error); 
30 H 
31 if !FD ISSST'sock?d, ursetit | 
32 den = welv.lun: 
EX! n = Reevfrom(socxfd, recvline, VAXLINE, ©, preply acdr, 
a4 len); 
a4 veovline in) = 6; f* moll terminate */ 

princf '*from te: ts", 
37 Sock ntop aostlpreply addr, leri, recwlime); 
28 ] 
38 if [FD ISS2T)pipetC|^], &rseti) ( 
40 keadipipefd[O0], sn, 1}; /* timer expired */ 
41 breaks 
42 1 
35 ] 
44 } 
45 traeiprenliy acir}, 
16; 
47 static void 
18 recvfrzcm zlam(int cígno) 
49 : 
st wri-si(pipe^óá[1], "*, 1); /* write one ml byre to pipe */ 
51 return; 
52 5 
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创建 管道 


15 我 们 创建 一 个 普通 的 Unix 管 道 ， 返 回 两 个 描述 符 。 
pipefd[9] 是 读 入 端 ，pipefd[1] 是 写 出 端 。 


我 们 也 可 以 调用 socketpair 创 建 一 个 全 双 工 管道 。 某 些 系统 
eee 可 以 从 任何 一 端 读 入 ， 也 可 以 写 出 
到 任何 一 端 。 


对 套 接 字 和 管道 读 入 端 进行 select 


23-30 针对 套 接 字 sockfd 和 管道 读 入 端 pipefd[9] 调 用 
select 测 试 可 读 条 件 e 


47-52 当 SIGALRM 信 号 被 递交 时 ， 信 和 号 处 理 函 数 往 管 道中 写 入 
一 个 字 节 ， 使 得 该 管道 的 读 入 端 变 为 可 读 。 本 信号 处 理 函 数 的 返回 有 
可 能 中 断 select 调 用 。 当 select 返 回 EINTR 错 误 时 我 们 忽略 该 错 
误 ， 因 为 我 们 知道 管道 的 读 入 端 将 最 终 变 为 可 读 ， 从 而 终结 for 循 
环 。 


从 管道 read 


39-42 当 管 道 的 读 入 端 变 为 可 读 时 ， 我 们 调用 read 从 管道 中 读 
入 由 信号 处 理 画 数 写 出 的 那个 空 字 市 并 忽略 它 。 然 而 管道 变 为 可 读 这 
一 扩 告 诉 我 们 定时 絮 已 到 时 ， 于 是 我 们 break 出 这 个 无 限 的 for 御 
环 。 


20.6 小结 


广播 发 送 的 数据 报 由 发 送 主 机 某 个 所 在 子 网 上 的 所 有 主机 接收 。 
广播 的 务 势 在 于 同一 子 网 上 的 所 有 主机 都 必须 处 理 数据 报 ， 铬 是 UDP 
数据 报 则 需 沿 协议 栈 向 上 一 直 处 理 到 UDP 层 ， 即 使 不 参与 广播 应 用 的 
主机 也 不 能 幸免 。 要 是 运行 诸如 音频 、 视 频 等 以 较 高 数据 速率 工作 的 
应 用 ， 这 些 非 必要 的 处 理会 给 这 些 主机 市 来 过 度 的 处 理 人 负担 。 我 们 将 
在 下 一 章 看 到 多 播 可 以 解决 本 问题 ， 因 为 多 播发 送 的 数据 报 只 会 由 对 
相应 多 播 应 用 感 兴 趣 的 主机 接收 。 


我 们 把 UDP 时 间 获 取 客 户 程 序 改 写成 回 标 准 daytime 服 务 器 发 送 一 
个 广播 请 求 ， 然 后 显示 在 5 秒 钟 内 收 到 的 所 有 应 答 。 我 们 通过 这 个 例子 
展示 由 SIGALRM 信 号 引起 的 竞争 状态 。 因 为 使 用 alarm 范 数 和 
SIGALRM 信 号 是 对 读 操 作 设 置 超时 的 一 个 常用 方法 ， 这 个 微妙 的 错误 
在 网 络 应 用 程序 中 比较 常见 。 我 们 给 出 了 解决 这 个 问题 的 一 个 不 正确 
办 法 和 以 下 三 个 正确 办 法 : 


。 使 用 pselect; 
。 使 用 sigsetjmp 和 siglongjmp: 
。 使 用 从 信号 处 理 函 数 到 主 循环 的 IPC (典型 为 管道 ) 。 


习题 


20.1 运行 使 用 dg_c1i 函 数 广播 版 本 (图 20-5) 的 UDP 客户 程 
序 。 你 接收 到 了 多 少 个 应 答 ? 它们 总 是 以 同样 的 顺序 到 达 吗 ? 你 的 网 
络 上 的 主机 具有 同步 时 钟 吗 ? 


20.2 ”在 图 20-10 中 select 返 回 之 后 插入 铬 干 bprintf 语 句 ， 以 便 
查看 select 究 竟 返 回 一 个 错误 还 是 那 两 个 描述 符 之 一 的 可 读 条 件 。 
当 alarm 时 间 到 时 ， 你 的 系统 返回 了 EINTR 错 误 还 是 管道 的 可 读 条 
件 ? 


20.3 ”运行 诸如 tcpdump 之 类 工具 查找 局 域 网 上 的 广播 数据 报 ， 
所 用 命令 为 tcpdump ether broadcast。 分 析 一 下 这 些 广播 数据 
报 分 别 属于 哪些 协议 族 。 
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广播 可 以 减少 局 域 网 上 的 分 组 流通 ， 与 无 盘 系 统 之 间 却 存在 一 个 不 
合 需要 的 交互 问题 。 假 设 一 个 NTP 服 务 器 主机 每 隔 64 秒 钟 广播 一 次 当 
前 时 间 。 如 果 在 此 期 间 所 有 无 盘 客 户主 机 上 的 NITP 守 护 进程 被 换 出 主 
存 ， 那 么 当 它 们 每 隔 64 秒 钟 收 到 一 个 NTP 数 据 报 时 ， 操 作 系统 将 立刻 
从 也 在 该 局 域 网 上 的 磁 玛 服务 万 主机 把 NTP 守 护 进 程 读 回 主 存 。 这 人 么 
一 来 ， 因 无 盘 客 户主 机 周期 性 地 把 NTP 守 护 进 程 通过 网 络 换 入 主 存 而 
造成 局 域 网 上 每 隔 64 秒 钟 束 出 现 一 次 分 组 涌流 。 幸 运 的 是 随 痢 人 磁盘 驱 
动 郁 价 格 的 一 路 走低 ， 无 列 系统 几乎 已 经 绝迹 。 译 者 注 


@ 图 20-9 存 在 两 个 潜在 的 时 序 问题 。 首 先 考 虑 如 果 信 和 号 是 在 recvfrom 
返回 和 把 它 的 返回 值 存 入 n 之 间 被 递交 ， 那 么 会 发 生 什 么 现象 。 该 数 
据 报 将 被 认为 已 丢失 (尽管 它 已 由 recvfrom 收 取 ) ， 不 过 UDP 应 用 
程序 应 该 能 够 处 理 数据 报 的 丢失 。 然 而 如 果 同 样 的 技术 用 于 TCP 应 用 
程序 ， 数 据 就 永远 丢失 了 (因为 TCP 已 确认 了 这 个 数据 并 把 它 递送 给 
了 应 用 进程 )》。 图 20-10 使 用 IPC 的 dg_c1i 画 数 也 存在 类 似 的 问题 ， 信 
号 可 能 在 recvfrom 成 功 返 回 和 把 返回 值 存 入 n 之 间 被 递交 。 该 问题 可 


通过 在 select 返 回 之 后 关 掉 alarm 来 解决 。 另 一 种 办 法 是 不 用 
alarm， 而 改 用 select 的 定时 功能 。 第 二 个 问题 是 alarm 调 用 和 首 
次 sigsetjmp 调 用 之 间 的 时 间 无 法 保证 小 于 alarm 时 间 (5 秒 钟 ) 
解决 办 法 之 一 是 在 调用 sigsetjmp 之 后 再 设置 一 个 标志 ， 并 在 信号 处 
理 函 数 中 测试 该 标志 : 如 果 该 标志 还 没有 设置 ， 那 么 不 调用 
siglongjmp， 仅 仅 重 置 alarm 就 行 。 结 论 是 : 为 了 在 这 些 可 能 的 情 
形 下 保证 健壮 性 ， 应 避免 使 用 Siglongjmp， 而 改 用 pselect 或 IPC 
方法 。 


Bin BH 


21.1 概述 


如 图 20-1 所 示 ， 单 播 地 址 标识 单个 IP 接 口 ， 广 播 地 址 标识 某 个 子 
网 的 所 有 IP 接 口 ， 多 播 地 址 标识 一 组 IP 接 口 。 单 播 和 广播 是 寻 址 方案 
的 两 个 极端 《要 么 单个 要 么 全 部 ) ， 多 播 则 意 在 两 者 之 间 提 供 一 种 折 
衷 方案 。 多 播 数据 报 只 应 该 由 对 它 感 兴趣 的 接口 接收 ， 也 就 是 说 由 运 
行 相 应 多 播 会 话 应 用 系统 的 主机 上 的 接口 接收 。 另 外 ， 广 播 一 般 局 限 
于 局 域 网 内 使 用 ， 而 多 播 则 既 可 用 于 局 域 网 ， 也 可 跨 广域网 使 用 。 事 
实 上， 基于 MBone (B.2 节 ) 的 应 用 系统 每 天 都 在 跨 整 个 因特网 多 播 。 


套 接 字 API 为 文 持 多 播 而 增添 的 内 容 比 较 简 单 : 9 个 套 接 字 选 项 ， 
其 中 3 个 影响 目的 地 址 为 多 播 地 址 的 UDP 数据 报 的 发 送 ， 另 外 6 个 影 啊 
主机 对 于 多 播 数据 报 的 接收 。 


21.2 ”多 播 地 址 


6000 


21.2.1 IPv4 的 D 类 地 址 


IPv4 的 D 类 地 址 (从 224.0.0.0 到 239.255.255.255) 是 IPv4 多 播 地 址 
(图 A-3) 。DD 类 地 址 的 低 序 28 位 构成 多 播 组 ID (group ID) ， 整 个 32 
位 地 址 则 称 为 组 地 址 (group address) 
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图 21-1 展 示 了 从 IPv4 多 播 地 址 到 以 太 了 网 地 址 的 映射 方法 。IPv4 多 
播 地 址 到 以 太 网 地 址 的 映射 见 RFC 1112 [Deering 1989] ， 到 FDDI 网 
络 地 址 的 映射 见 RFC 1390 [Katz 1993] ， 到 令 牌 环 网 地 址 的 映射 见 
RFC 1469 |Pusateri 1993] 。 图 中 还 展示 了 IPv6 多 播 地 址 到 以 太 网 地 址 
的 映射 ， 以 便 比 较 二 者 映射 成 的 结果 以 太 网 地 址 。 


| ?8 位 组 ID 
ipve%D 关 地 直 [SL | | T] 


急 略 的 5 位 本 一 (£42349 | 


PALER SEI: | oL | 00 | 5e [ 3 | | 


统一 管理 的 毕 地 址 < - - 


局 部 管理 网 生地 所 -二 一 一 
Pedkmewuu. [aja] | | ] | 


Jemison RE IER 
«xu rli — | ee 
Bc » 
4 


位 范围 
4 位 范围 


图 21-1 IPv4 和 IPVv6 多 播 地 址 到 以 太 网 地 址 的 映射 


考察 一 下 IPv4 的 上 映射。 以 太 网 地 址 的 高 序 24 位 总 是 01:00:5e。 
下 一 位 总 是 0， 低 序 23 位 复制 目 多 播 组 ID 的 低 序 23 位 。 多 播 组 ID 的 高 
序 5 位 在 映射 过 程 中 被 忽略 。 这 一 点 意 谓 着 32 个 多 播 地 址 映射 成 单个 以 
太 网 地 址 ， 因 此 这 个 映射 关系 不 是 一 对 一 的 。 


以 太 网 地 址 首 字 节 的 低 序 2 位 标明 该 地 址 是 一 个 统一 管理 的 组 地 
址 。 统 一 管理 (universally administered) 属性 位 意味 着 以 太 网 地 址 的 
高 序 24 位 由 IEEE 分 配 ， 组 地 址 属性 位 由 接收 接口 识别 并 进行 特殊 处 
H e 


Bea REARBJIPvA EEE o 


224.0.0.1 是 所 有 主机 (all-hosts) 组 。 子 网 上 所 有 具有 多 播 能 力 的 
节点 (主机 、 路 由 器 或 打印 机 等 ) 必须 在 所 有 具有 多 播 能 力 的 接 
T dee 。 (我 们 不 久 将 讨论 到 加 入 一 个 多 播 组 意味 着 什 

人 [o] 

224.0.0.2 是 所 有 路 由 器 (all-routers) 组 。 子 网 上 所 有 多 播 路 由 器 
必须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 。 
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介 于 224.0.0.0 到 224.0.0.255 之 间 的 地 址 (也 可 以 写成 224.0.0.0/24) 
称 为 链 路 局 部 的 (link local) 多 播 地 址 。 这 些 地 址 是 为 低级 拓扑 发 现 
和 维护 协议 保留 的 。 多 播 路 由 器 从 不 转发 以 这 些 地 址 为 目的 地 址 的 数 
据 报 。 我 们 将 在 考察 IPv6 多 播 地 址 之 后 再 讨论 IPv4 多 播 地 址 的 范围 。 


21.2.2 ”IPv6 多 播 地 址 


IPv6 多 播 地 址 的 高 序 字 节 值 为 ff。 图 21-1 给 出 了 把 16 字 节 IPv6 多 
播 地址 映射 成 6 字 节 以 太 网 地 址 的 方法 。112 位 组 ID 的 低 序 32 位 复制 到 
以 太 网 地 址 的 低 序 32 位 。 以 太 网 地 址 的 高 序 2 字 节 为 33 :33。IPv6 多 播 
地 址 到 以 太 网 地 址 的 映射 见 RFC 2464 [Crawford | ， 到 FDDI 网 络 地 
址 的 映射 见 RFC 2467 |Crawford 1998b| ， 到 令 有 牌 环 网 地 址 的 映射 见 
| Thomas 1997| 。 


PAK B tub Br F SERA 2 DP TIGRE ee PS a E EAH 
址 。 局 部 管理 (locally administered) 属性 位 意味 着 不 能 保证 该 地 址 对 
于 IPv6 的 唯一 性 。 可 能 有 IPv6 以 外 的 其 他 协议 族 共享 同一 网 络 并 使 用 
同样 的 以 太 网 地 址 高 序 2 字 节 值 。 正 如 我 们 早先 所 提 ， 组 地 址 属性 位 由 
接收 接口 识别 并 进行 特殊 处 理 。 


IPv6 多 播 地 址 定义 有 两 种 格式 ， 如 图 21-2 所 示 。 当 P 标 志 为 0 时 ，T 
标志 区 分 众所周知 多 播 组 〈 其 值 为 0) 还 是 临时 (transient) 多 播 组 
(其 值 为 1 )  。P 标 志 值 为 1 表示 多 播 地 址 是 基于 某 个 单 播 前 缀 赋予 的 
(定义 见 RFC 3306 [Haberman and Thaler 2002] ) 。 当 P 标 志 为 1 时 ， 
7 标志 必须 也 为 1 (也 就 是 说 基于 单 播 的 多 播 地 址 总 是 临时 的 ) , plen 
和 prefix 这 两 个 字段 分 别 设置 为 前 级 长 度 和 单 播 前 级 的 值 。4 位 标志 字 
段 的 高 2 位 是 被 保留 的 。IPv6 多 播 地 址 还 有 一 个 4 位 范围 (scope) 字 
段 ， 我 们 不 久 将 讨论 到 。RFC 3307 [Haberman 2002] 叙述 了 IPv6 组 地 
址 的 低 序 32 位 (狭义 组 ID， 属 于 图 21-1 中 112 位 广义 组 ID 一 部 分 ) 独立 
于 P 标 志 的 分 配 机 制 。 
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图 21-2 ”IPv6 多 播 地 址 格式 
下 面 是 若干 特殊 的 IPv6 多 播 地 址 。 


。 ffo1: :1 和 ff02: :1 是 所 有 节点 (all-nodes) 组 。 子 网 上 所 有 具 
有 多 播 能 力 的 节点 〈 主 机 、 路 由 器 和 打印 机 等 ) 必须 在 所 有 具有 
多 播 能 力 的 接口 上 加 入 该 组 ， 类 似 于 IPv4 的 224.0.0.1 多 播 地 址 。 
但 多 播 是 IPv6 的 一 个 组 成 部 分 ， 这 与 IPv4 是 不 同 的 。 


尽管 对 应 的 IPv4 组 称 为 所 有 主机 组 ， 而 IPv6 组 称 为 所 有 节点 组 ， 
它们 的 含义 是 一 致 的 。IPv6 重 新 命名 意 在 更 为 清晰 地 指出 本 组 包括 了 
子 网 上 的 主机 、 路 由 万 、 打 印 机 ， 以 及 任何 下 设备 。 


。ffo1: :2、ff02: :2 和 ff05: :2 是 所 有 路 由 器 (all-routers) 
组 。 子 网 上 所 有 多 播 路 由 局 必须 在 所 有 具有 多 播 能 力 的 接口 上 加 
入 该 组 ， 类 似 于 IPv4 的 224.0.0.2 多 播 地 址 。 


21.2.3 ”多 播 地 址 的 范围 


IPv6 多 播 地 址 显 式 存在 一 个 4 位 的 范围 (scope) 字段 ， 用 于 指定 
多 播 数据 报 能 够 游 走 的 范围 。IPv6 分 组 还 有 一 个 跳 限 (hop limit) 字 
段 ， 用 于 限制 分 组 被 路 由 器 转发 的 次 数 。 下 面 是 若干 个 已 经 分 配给 范 
围 字 段 的 值 。 


1: 接口 局 部 的 (interface-local) ° 

2: 链 路 局 部 的 (link-local) ° 

4: 管区 局 部 的 (admin-local) ° 

5: 网 点 局 部 的 (site-local) ° 

8: 组 织 机 构 局 部 的 (organization-local) ° 

14: 全 球 或 全 局 的 (global) 。 

其 余 值 或 者 不 作 分 配 ， 或 者 保留 。 接 口 局 部 数据 报 不 准 由 接口 输 
出 ， 链 路 局 部 数据 报 不 可 由 路 由 器 转发 。 管 区 (admin region) 、 网 点 

(site) 和 组 织 机 构 (organization) 的 具体 定义 由 该 网 点 或 组 织 机 构 的 

eee 。 只 是 范围 字段 值 不 同 的 IPv6 多 播 地 址 代表 不 
司 的 组 。 

IPv4 多 播 数 据 报 没 有 单独 的 范围 字段 。 因 历史 治 用 关系 ，IPv4 首 
部 中 的 TIL 字 段 兼 用 作 多 播 范 围 字段 : 0 意 为 接口 局 部 ，1 意 为 链 路 局 


部 ，2~32 意 为 网 点 局 部 ，33 一 64 意 为 地 区 局 部 (region-local) , 65~ 
128 意 为 大 洲 局 部 (contionent-local) ，129~255 意 为 无 范围 限制 (全 


EK) 。TTL 字 段 的 这 种 双重 用 途 已 经 导致 一 些 困 难 ，RFC 2365 
[Meyer 1998] 对 比 有 详细 的 描述 。 
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尽管 把 IPv4 的 TTL 字 上 段 用 作 多 播 范 围 控 制 已 被 接受 并 且 是 受 推 荐 

的 做 法 ， 但 是 如 果 可 能 的 话 可 管理 的 范围 划分 更 为 可 取 。 这 样 做 会 把 
IPv4 介 于 239.0.0.0 到 239.255.255.255 之 间 的 地 址 定义 为 可 管理 地 划分 范 
围 的 IPv4 多 播 空间 (administratively scoped IPv4 multicast space) 

(RFC 2365 [Meyer 1998] ) ， 它 占据 多 播 地 址 空间 的 高 端 。 该 范围 
内 的 地 址 由 组 织 机 构 内 部 分 配 ， 但 是 不 保证 跨 组 织 机 构 边 界 的 唯一 
性 。 任 何 组 织 机 构 必 须 把 它 的 边界 多 播 路 由 器 配置 成 禁止 转发 以 这 些 
地 址 为 目的 地 址 的 多 播 数 据 报 。 


可 管理 地 划分 范围 的 IPv4 多 播 地 址 空间 被 进一步 划分 为 本 地 范围 
(local scope) 和 组 织 机 构 局 部 范围 (organization-local scope) ， 其 中 
前 者 类 似 于 IPv6 的 网 点 局 部 范围 (但 是 语义 上 不 等 价 ) 。 图 21-3 汇 总 
了 不 同 的 范围 划分 规则 e 


可 管理 范围 


224.0.0.0 到 224.0.0.255 
239.255.0.0]239.255,255.255 
239,192.0.0]239.195.255.255 


224.0.1.0#1/238.255.255.255 


图 21-3 ”IPv4 和 IPv6 多 播 地 址 范围 


21.2.4 ”多 播 会 话 


特别 是 在 流 式 多 媒体 应 用 中 ， 一 个 多 播 地 址 (IPv4 或 IPv6 地 址 ) 
和 一 个 传输 层 端 口 (通常 是 UDP 端 口 ) 的 组 合 称 为 一 个 会 话 
(session) 。 举 例 来 说 ， 一 个 音频 /视频 电话 会 议 可 能 由 两 个 会 话 构 
成 : 一 个 用 于 音频 ， 另 一 个 用 于 视频 。 这 些 会 话 几乎 总 是 使 用 不 同 的 


端口 ， 有 时 还 使 用 不 同 的 多 播 组 ， 以 便 接 收 时 有 灵活 地 选取 ， 例 如 有 的 

客户 可 能 选择 只 接收 音频 会 话 ， 而 有 的 客户 可 能 选择 同时 接收 音频 和 

Hen o 要 是 不 同 会 话 使 用 相同 的 组 地 址 ， 这 种 选择 就 不 大 可 能 做 
J} o 


21.3 局域网 上 多 播 和 广播 的 比较 


我 们 现在 返回 到 图 20-3 和 图 20-4 中 展示 的 例子 ， 看 看 在 多 播 情 况 
下 将 发 生 什么 。 我 们 以 图 21-4 所 示 的 IPv4 情 形 作为 例子 ， 不 过 IPVv6 涉 
及 的 步骤 与 之 类 似 。 
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图 21-4 UDP 数据 报 多 播 示例 


右 侧 主机 上 的 接收 应 用 进程 启动 ， 并 创建 一 个 UDP 套 接 字 ， 捆 绑 
端口 123 到 该 套 接 字 上 ， 然 后 加 入 多 播 组 224.0.1.1。 我 们 不 久 将 看 到 这 
种 “加 入 ” (joining) 操作 通过 调用 setsockopt 完 成 。 上 述 操 作 完 成 
之 后 ，IPv4 层 内 部 保存 这 些 信 息 ， 并 告知 合适 的 数据 链 路 接收 目的 以 
太 网 地 址 为 01:00:5e:00:01:01 的 以 太 网 帧 〈TCPv2 的 12.11 节 ) ° 
该 地 址 是 与 接收 应 用 进程 刚 加 入 的 多 播 地 址 对 应 的 以 太 网 地 址 ， 其 中 
所 用 映射 方法 如 图 21-1 所 示 。 


下 一 个 步骤 是 左 侧 主机 上 的 发 送 应 用 进程 创建 一 个 UDP 套 接 字 ，， 
往 卫 地 址 224.0.1.1 的 123 端 口 发 送 一 个 数据 报 。 发 送 多 播 数 据 报 无 需 任 
何 特殊 处 理 ; 发 送 应 用 进程 不 必 为 此 加 入 多 播 组 。 发 送 主机 把 该 IP 地 
址 转换 成 相应 的 以 太 网 目的 地 址 ， 再 发 送 承 载 该 数据 报 的 以 太 网 帧 。 
目的 以 太 网 地 址 (由 接口 检查 ) 和 目的 IP 地 址 
PEKRE) e 


我 们 假设 中 间 主 机 不 具备 IPv4 多 播 能 力 (因为 IPv4 多 播 支 持 是 可 
选 的 ) ° EHS AMA, Ay (1) 该 帧 的 目的 以 太 网 地 址 不 匹配 
该 主机 的 接口 地 址 ， (2) 该 帧 的 目的 以 太 网 地 址 不 是 以 太 网 广播 地 
bk, (3) 该 主机 的 接口 未 被 告知 接收 任何 组 地 址 (高 序 字 节 的 低 序 位 
被 置 为 1 的 以 太 网 地 址 ， 如 图 21-1 所 示 ) 。 
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该 帧 基于 我 们 所 称 的 不 完备 过 滤 (imperfect filtering) 被 右 侧 主机 
的 数据 链 路 接收 ， 其 中 的 过 滤 操 作 由 相应 接口 使 用 该 帧 的 以 太 网 目的 
地 址 执行 。 我 们 之 所 以 说 这 种 过 滤 不 完备 是 因为 尽管 我 们 告知 该 接口 
接收 以 某 个 特定 以 太 网 组 地 址 为 目的 地 址 的 帧 ， 通 党 它 也 会 接收 以 其 
他 以 太 网 组 地 址 为 目的 地 址 的 帧 。 


当 我 们 告知 一 个 以 太 网 接口 接收 目的 地 址 为 某 个 特定 以 太 网 组 地 

址 的 帧 时 ， 许 多 当前 的 以 太 了 网 接口 卡 对 这 个 地 址 应 用 某 个 散 列 

(hash) 函数 ， 计 算出 一 个 介 于 0 和 511 之 间 的 值 ， 然 后 把 该 值 在 一 个 
512 位 数位 数组 中 对 应 的 位 置 1。 当 有 一 个 目的 地 为 某 个 组 地 址 的 帧 在 
线 缆 上 经 过 时 ， 接 口 对 其 目的 地 址 应 用 同样 的 散 列 函数 ， 计 算出 一 个 
介 于 0 和 511 之 间 的 值 。 如 果 该 值 在 同一 个 数组 中 对 应 的 位 为 1， 那 就 接 
收 这 个 帧 ; 否则 忽略 这 个 帧 。 较 老 的 网 络 接口 卡 所 用 数位 数组 仅 有 64 
位 ， 把 它 增 加 到 512 位 可 以 减少 接口 接收 非 关 注 帧 的 可 能 性 。 随 着 时 间 
的 推移 和 越 来 越 多 的 应 用 系统 使 用 多 播 ， 数 位 数组 的 大 小 可 能 进一步 
增加 。 当 今 有 些 接 口 卡 已 经 实现 完备 过 滤 (perfect filtering) 。 另 有 些 
接口 卡 根 本 没有 多 播 过 滤 ， 当 告知 它们 接收 某 个 特定 组 地 址 时 ， 它 们 
必须 接收 所 有 的 多 播 央 (有 时 称 为 “multicast promiscuous” 多 播 混 洒 模 
X) 。 有 一 于 流行 的 接口 卡 既 具 备 容量 为 16 个 组 地 址 的 完备 过 小 能 
力 ， 又 有 一 个 512 位 的 散 列 结果 数位 数组 作为 补充 。 另 有 一 款 接口 卡 能 
够 为 80 个 组 地 址 的 执行 完备 过 滤 ， 超 出 容量 后 却 不 得 不 进入 多 播 混 杂 
模式 。 即 使 接口 执行 完备 过 滤 ，IP 层 的 完备 软件 过 滤 仍 然 是 必需 的 ， 
因为 从 IP 多 播 地 址 到 硬件 地 址 的 映射 不 是 一 对 一 的 。 


右 侧 主机 的 数据 链 路 收取 该 帧 后 ， 把 由 该 帧 承载 的 分 组 传递 到 卫 
层 ， 因 为 该 以 太 网 帧 的 类 型 为 JPv4。 既 然 收 到 的 分 组 以 某 个 多 播 IP 地 
址 作为 目的 地 址 ，IP 层 于 是 比较 该 地 址 和 本 机 的 接收 应 用 进程 已 经 加 
入 的 所 有 多 播 地 址 ， 根 据 比 较 结果 确定 是 接受 还 是 丢弃 该 分 组 。 我 们 
称 这 个 操作 为 完备 过 滤 (perfect filtering) ， 因 为 它 基于 IPv4 报 头 中 完 
整 的 32 位 了 类 地 址 执行 。 在 本 例子 中 ，IP 层 接受 该 分 组 并 把 承载 在 其 
中 的 UDP 数据 报 传递 到 UDP 层 ，UDP 层 再 把 承载 在 UDP 数据 报 中 的 应 
用 数据 报 传递 到 绑 定 了 端口 123 的 套 接 字 。 


图 21-4 中 没有 展示 的 还 有 以 下 三 种 情形 。 


(1) 运行 所 加 入 多 播 地 址 为 225.0.1.1 的 某 个 应 用 进程 的 一 个 主机 © 
既然 多 播 地 址 组 ID 的 高 5 位 在 到 以 太 网 地 址 的 映射 中 被 包 略 ， 该 主机 
的 接口 也 将 接收 目的 以 太 网 地 址 为 01:00:5e:00:01:01 的 帧 。 这 种 
情况 下 ， 由 该 帧 承载 的 分 组 将 由 IP 层 中 的 完备 过 滤 丢 弃 。 


(2) 运行 所 加 入 多 播 地 址 符合 以 下 条 件 的 某 个 应 用 进程 的 一 个 主 
机 : 由 这 个 多 播 地址 映射 成 的 以 太 网 地 址 恰好 和 
901:00:5e:00:01:01 一 样 被 该 主机 执行 非 完 备 过 滤 的 接口 散 列 到 同 
一 个 结果 。 该 接口 也 将 接收 目的 以 太 网 地 址 为 01:00:5e:00:01:01 
的 帧 ， 直 到 由 数据 链 路 层 或 IP 层 丢弃 。 


(3) 目的 地 为 相同 多 播 组 (224.0.1.1) 不 同 端口 (譬如 4000) 的 一 
个 数据 报 。 图 21-4 中 右 侧 主机 仍然 接收 该 数据 报 ， 并 由 IP 层 接受 并 传 
zn 不 过 UDP 层 将 丢弃 它 (假设 绑 定 端口 4000 的 套 接 字 不 存 
+ [o] 


这 种 情形 表明 让 一 个 进程 接收 某 个 多 播 数据 报 的 先决 条 件 是 该 进 
程 加 入 相应 多 播 组 并 绑 定 相应 端口 。 
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21.4 广域网 上 的 多 播 


正如 上 一 市 所 述 ， 单 个 局 域 网 上 的 多 播 是 简单 的 。 一 个 主机 发 送 
一 个 多 播 分 组 ， 对 人 它 感 兴趣 的 任何 主机 接收 该 分 组 。 多 播 相对 于 广播 
的 优势 在 于 不 会 给 对 多 播 分 组 不 感 兴趣 的 主机 增加 额外 人 负担 。 


广域网 也 可 以 从 多 播 中 受益 。 考 虑 如 图 21-5 所 示 的 广域网 ， 其 中 5 
个 局 域 网 通过 5 个 多 播 路 由 器 互 连 。 


FAN HI 


e (vits (usa) 
| | | | | 
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图 21-5 ”用 5 个 多 播 路 由 器 互 连 的 5 个 局 


i 


或 网 


假设 在 其 中 的 5 个 主机 上 启动 了 某 个 程序 〈 比 如 说 监听 某 个 多 播音 
频 会 话 的 一 个 程序 ) ， 而 且 这 5 个 程序 〈《 实 为 进程 ) 加 入 了 一 个 给 定 多 
播 组 《我 们 也 说 这 5 个 主机 加 入 了 那个 多 播 组 ) 。 另 外 假设 每 个 多 播 路 
由 器 与 其 邻居 多 播 路 由 器 的 通信 使 用 某 个 多 播 路 由 协议 (multicast 
routing protocol) ， 我 们 就 用 MRP 指 称 。 图 21-6 展 示 了 整个 情形 © 
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AL 如 入 组 IMA 加 入 组 


图 21-6 广域网 上 5 个 主机 加 入 一 个 多 播 组 


当 某 个 主机 上 的 一 个 进程 加 入 一 个 多 播 组 时 ， 该 主机 向 所 有 直接 
连接 的 多 播 路 由 器 发 送 一 个 IGMP 消 恩 ， 告 知 它们 本 主机 已 加 入 了 那个 
多 播 组 。 多 播 路 由 器 随后 使 用 MRP 交换 这 些 信息 ， 这 样 每 个 多 播 路 由 
妖 束 知道 在 收 到 目的 地 为 所 加 入 多 播 地 址 的 分 组 时 该 如 何 处 理 。 


多 播 路 由 仍然 是 一 个 活跃 的 研究 课题 ， 单 纯 讨 论 它 就 极 可 能 耗费 
一 本 书 的 容量 。 
接着 假设 左上 方 主机 上 的 一 个 进程 开始 发 送 目的 地 为 那个 给 定 多 


播 地 址 的 分 组 。 比 如 说 这 个 进程 发 送 的 是 那些 多 播 接收 进程 正 等 着 接 
收 的 音频 分 组 。 图 21-7 展 示 了 这 些 分 组 。 


加 入 组 加 入 组 加 入 组 加 A 入 组 


图 21-7 广域网 上 发 送 多 播 分 组 
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我 们 可 以 跟 踩 这 些 多 播 分 组 从 发 送 进程 游 走 到 所 有 接收 进程 所 经 


历 的 步骤 。 


这 些 分 组 在 左上 方 局 域 网 上 由 发 送 进 程 多 播发 送 。 接 收 主机 H1 接 
收 这 些 分 组 (因为 它 已 经 加 入 给 定 多 播 组 ，， 多 播 路 由 器 FMRI 
et 

H o 


MR1 把 这 些 多 播 分 组 转发 到 MR2， 因 为 MRP 已 经 通告 MR1: MR2 
需要 接收 目的 地 为 给 定 多 播 组 的 分 组 。 

MR2 在 直接 连接 的 局 域 网 上 多 播发 送 这 些 分 组 ， 因 为 该 局 域 网 上 
的 主机 H2 和 H3 属 于 该 多 播 组 。 MR2 还 向 MR3 发 送 这 些 分 组 的 一 


像 MR2 那 样 对 分 组 进行 复制 是 多 播 转发 所 特有 的 。 单 播 分 组 在 被 
路 由 器 转发 时 从 不 被 复制 。 

MR3 把 这 些 多 播 分 组 发 送 到 MR4， 但 是 不 在 直接 连接 的 局 域 网 上 
J 因为 我 们 假设 该 局 域 网 上 没有 主机 加 入 该 多 播 
MR4 在 直接 连接 的 局 域 网 上 多 播发 送 这 些 分 组 ， 因 为 该 局 域 网 上 
的 主机 H4 和 H5 属 于 该 多 播 组 。 它 并 不 向 MR5 发 送 这 些 分 组 的 一 个 


副本 ， 因 为 直接 连接 MR5 的 局 域 网 上 没有 主机 属于 该 多 播 组 ， 而 
MR4 已 经 根据 与 MR5 交 换 的 多 播 路 由 信息 知道 这 一 点 。 


广域网 上 作为 多 播 奉 代 手 段 的 两 个 不 大 合意 的 方法 是 广播 泛滥 
(broadcast flooding) 以 及 给 每 个 接收 者 发 送 单 个 副本 。 使 用 第 一 种 方 
法 时 ， 分 组 由 发 送 进程 广播 发 送 ， 每 个 路 由 器 在 除 分 组 到 达 接 口外 的 
所 有 其 他 接口 广播 发 送 这 些 分 组 。 显 然 ， 这 个 方法 将 增加 对 这 些 分 组 
不 感 兴趣 但 又 必须 处 理 它 们 的 主机 和 路 由 需 的 数目 。 


使 用 第 二 个 方法 时 ， 发 送 进程 必须 知道 所 有 接收 进程 的 了 地 址 并 
且 给 每 个 接收 进程 发 送 一 个 副本 。 对 于 图 21-7 所 示 的 5 个 接收 主机 情形 
而 言 ， 这 个 方法 要 求 在 发 送 主机 的 局 域 网 上 出 现 5 个 分 组 ， 从 MR1 到 
MR2 走 4 个 分 组 ， 从 MR2 到 MR3 再 到 MR4 走 2 个 分 组 。 


21.5 PRES 


广域网 上 的 多 播 因 为 多 个 原因 而 难以 部 署 。 最 大 的 问题 是 运行 

MRP 要 求 每 个 多 播 路 由 器 接收 来 目 所 有 本 地 接收 主机 的 多 播 组 加 入 及 
其 他 请 求 ， 并 在 所 有 多 播 路 由 器 之 间 交 换 这 些 信息 ， 多 播 路 由 紫 的 转 
发 功能 要 求 把 来 自 网 络 中 任何 发 送 主 机 的 数据 复制 并 发 送 到 网 络 中 任 
何 接 收 主机 。 男 一 个 大 问题 是 多 播 地 址 的 分 配 ，IPv4 没 有 足够 数量 的 
多 播 地 址 可 以 静态 地 分 配给 想 用 的 任何 多 播 应 用 系统 使 用 。 要 在 广 域 
范围 发 送 多 播 分 组 而 又 不 与 其 他 多 播发 送 进程 冲突 ， 多 播 应 用 系统 忠 
得 使 用 唯一 的 地 址 ， 然 而 全 球 性 的 多 播 地 址 分 配 机 制 尚未 出 现 。 
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源 特定 多 播 (source-specific multicast, SSM) [Holbrook and 
Cheriton 1999] 给 出 了 这 些 问题 的 一 个 务实 的 解决 办 法 。SSM 把 应 用 
系统 的 源 地 址 结合 到 组 地 址 上 ， 从 而 在 有 限 程 度 上 如 下 地 解决 了 这 些 


问题 : 


。 接收 进程 向 多 播 路 由 器 提供 发 送 进 程 的 源 地 址 作为 多 播 组 加 入 操 
作 的 一 部 分 。 这 么 做 可 以 降低 多 播 路 由 絮 束 每 个 分 组 的 转发 聚 散 
度 ， 因 为 每 个 接收 进程 都 必须 知道 源 地 址 。 这 么 做 还 保留 了 多 播 
地 址 的 包容 性 ， 因 为 发 送 进程 无 需 知道 任何 接收 进程 的 地 址 。 
把 多 播 组 的 标识 从 单纯 多 播 组 地 址 细 化 为 单 播 源 地 址 和 多 播 目 的 
地 址 之 组 合 (SSM 称 之 为 通道 ) 。 这 一 点 意味 着 发 送 进程 可 以 挑 
选任 何 多 播 地 址 ， 因 为 现在 源 地 址 和 目的 地 址 的 组 合 是 必须 唯一 
的 ， 而 源 地 址 本 身 往往 已 经 使 得 该 组 合 唯 一 了 。SSM 会 话 由 源 地 
址 、 目 的 地 址 和 端口 三 者 的 组 合 标识 。 

SSM 还 提供 一 定 的 反 窃 听 (anti-spoofing) 能 力 ， 也 就 是 说 ， 让 源 
2 在 源 1 的 通道 上 发 送 较为 困难 ， 因 为 源 1 的 通道 包含 了 源 1 的 源 地 址 。 
当然 窃听 仍然 是 可 能 的 ， 不 过 要 困难 得 多 。 


216 ”多 播 套 接 字 选项 


传统 意义 的 多 播 API 文 持 只 需要 5 个 套 接 字 选 项 。SSM 所 需 的 源 过 
WE (source filtering) 额外 要 求 多 播 API 文 持 新 增 4 个 套 接 字 选项 。 图 21- 
8 给 出 了 与 组 成 员 无 关 的 3 个 套 接 字 选 项 的 IPv4 和 IPv6 版 本 以 及 它们 在 
getsockopt 或 setsockopt 调 用 中 期 望 第 四 个 参数 指向 的 数据 类 
型 。 图 21-9 给 出 了 与 组 成 员 相 关 的 6 个 套 接 字 选项 的 IPv4、IPV6 和 和 与 IP 
版 本 无 关 的 API。 所 有 9 个 选项 对 于 setsockopt 都 是 合法 的 ， 但 是 加 
入 和 离开 多 播 组 或 源 的 6 个 选项 却 不 允许 用 在 getsockopt 中 。 


数据 类 到 Wo o" 
TP MULTTCAST TF 指定 外 出 地 播 数 据 报 的 默认 接口 
IP MULTICAST TTL 指定 外 出 多 播 数据 报 的 TTL 
IP MULTICAST LOOP PERSE et g RS r6 TIS in ttt 
FE Sh) SR EE 
Irae SHH Cd n HH 
FER BURLING S EA STR 


struct in_addr 


u_char 
u_char 
LPV& MULTICAST LF 

TPE MUT^7TCAST HOPS 


IPVE MULCICAST LOOF 


图 21-8 组 成 员 无 关 多 播 套 接 字 选项 
ow 


IP ADD MEMBZRSH-P struct ip meq 如 入 一 个 多 插 组 

ctruct ip mreq 离开 一 个 多 插 组 

在 一 个 已 加 入 组 上 阻塞 其 个 源 
EE P SAE aE 

MA remp SHA 

BF EET 
struct ipvé mreg 加 入 一 个 多 揪 组 

struct ipvé_mroq 高 开 一 个 多 插 组 

加 入 一 个 多 揪 组 

个 多 挝 组 


IP DROP MEMBERSHIP 

TP BLOCK SOURCE 

IP UNBLCCK SOURCE 

LP ADD SOURCE MEMEERSHLP 
IP DROP SOURCE MEMBESSHI? 


struct ip mreq s-curce 
struct ip_mrcq_scuree jp 


struct ip mreq scurce 


struct ip m-eq scurce 


TPA JIOTN GROUP 


IPVE LENVE GROUP 


MCAST JCIN GROUP 


MCAST LEAVE GROUP 


struct arcup req 


struct group req 离开 


MCAST BLOCK SOURCE 
MCAET UNBLOCK SOURCE 
MCAST JCTN SOURCR GROUP 
MCAZT LZAVD SOURCE G3OUP 


sLrucL grcup source reu 
struct group E2urcs req 
struck group source rey 


struct arcup source req 


feo TP com] EE 
THE — p 4c XE ROS 
JI A — ACE E fn 
离开 一 个 源 特定 多 播 组 


图 21-9 组 成 员 相关 多 播 套 接 字 选项 


RA E. 先 项 取 u_char 类 型 的 参数 ， 而 IPv6 的 跳 限 和 问 
馈 选 项 分 别 取 ijnt 和 uv_int 这 两 个 类 型 的 参数 。 图 7-1 中 大 多 数 其 他 套 
接 字 选项 都 取 整 数 作为 参数 ， 因 此 使 用 IPv4 多 播 选项 的 一 个 常见 编程 
错误 就 是 作为 nt 参数 指定 TIL 或 回馈 调用 setsockopt (这 是 不 允 
eee 。IPv6 所 做 的 改动 使 得 它们 与 其 他 选 
i yee e 


我 们 接着 详细 讲解 这 9 个 套 接 字 选 项 。 注 意 它们 在 Ipv4 和 IPv6 中 有 
相同 的 概念 ， 差 别 只 是 名 字 和 参数 类 型 。 


1.IP ADD MEMBERSHIP ` IPV6_JOIN_GROUP#I 
MCAST JOIN GROUP 


在 一 个 指定 的 本 地 接口 上 加 入 一 个 不 限 源 的 多 播 组 。 对 于 IPv4 版 
本 ， 本 地 接口 使 用 某 个 单 播 地 址 指定 ， 对 于 IPv6 和 与 协议 无 关 的 API,， 
本 地 接口 使 用 某 个 接口 索引 指定 。 以 下 3 个 结构 在 加 入 或 离开 不 限 源 的 
多 播 组 时 使 用 。 


struct ip_mreq { 

struct in_addr imr multiaddr; /* IPv4 class D 
multicast addr */ 

struct in addr imr interface; /* IPv4 addr of local 
interface */ 


, 


struct ipv6 mreq { 
struct in6 addr ipvemr multiaddr; /* IPv6 multicast addr 
#7 


unsigned int ipv6mr_interface; /* interface index, or 
0 */ 
}; 


struct group_req { 

unsigned int gr_interface; /* interface index, or 
o */ 

struct sockaddr storage gr group; /* IPv4 or IPv6 
multicast addr */ 


, 


如 果 本 地 接口 指定 为 IJPv4 的 通 配 地 址 (INADDR ANY) 或 IPv6 值 
为 0 的 索引 ， 那 就 由 内 核 选择 一 个 本 地 接口 。 
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SEDER Ia ER ERST — Mie 2 eB RUE P ZEW 
上 当前 有 一 个 或 多 个 进程 在 那个 接口 上 属于 该 组 。 


在 一 个 给 定 套 接 字 上 可 以 多 次 加 入 多 播 组 ， 不 过 每 次 加 入 的 必须 
征 不 同 的 多 播 地 址 ， 或 者 是 在 不 同 接口 上 的 同一 个 多 播 地 址 。 多 次 加 
入 可 用 于 多 宿主 机 ， 例 如 创建 一 个 套 接 字 后 对 于 一 个 给 定 多 播 地 址 在 
每 个 接口 上 执行 一 次 加 入 。 


回顾 图 21-3， 我 们 知道 ITPv6 多 播 地 址 显 式 存在 一 个 范围 字段 。 我 
们 还 指出 ， 仅 仅 范 围 有 差异 的 IPv6 多 播 地 址 代表 不 同 的 多 播 组 。 因 此 
如 果 某 个 NTP 实 现 想 要 不 论 范 围 接 收 所 有 NTP 分 组 ， 它 就 必须 加 入 
ff01::101 (接口 局 部 ) 、ff02: :101 ( 链 路 局 部 ) 、ff05: :101 
(网 点 局 部 ) 、ff08: :101 (组 织 机 构 局 部 ) 和 ffoe : :101 (全 
EK) 。 所 有 这 些 加 入 都 可 以 在 单个 套 接 字 上 执行 ， 而且 可 以 通过 设置 
IPV6_PKTINF0 套 接 字 选项 (22.8 节 ) 让 recvmsg 返 回 每 个 数据 报 的 
目的 地 址 。 


IP 协 议 无 关 的 套 接 字 选 项 (MCAST. JOIN GROUP) 与 IPv6 版 本 几 
平 相同 ， 差 别 只 是 改 用 一 个 sockaddr_storage 结 构 代替 ijn6_addr 
结构 传递 多 播 组 地 址 。sockaddr_storage 应 足以 存放 系统 支持 的 
任何 类 型 的 地 址 。 


大 多 数 实现 对 于 每 个 套 接 字 上 人 允许 执行 加 入 的 次 数 有 一 个 限制 。 
IPv4 的 这 个 限制 通常 由 常 值 IP_MAX_MEMBERSHIPS 指 定 ， 对 于 源 自 
Berkeley 的 实现 其 值 往往 是 20。 


当 不 指定 在 其 上 执行 加 入 的 接口 时 ， 源 目 Berkeley 的 内 核 在 普通 
的 卫 路 由 表 中 查找 给 定 多 播 地 址 并 使 用 找 出 的 接口 (TCPV2 第 357 
页 ) 。 为 了 处 理 这 种 情形 ， 有 些 系 统 在 初始 化 阶段 为 所 有 多 播 地 址 安 
装 一 个 路 径 (对 于 IPv4 就 是 目的 地 址 为 224.0.0.0/8 的 路 径 ) ° 9 


IPv6 和 协议 无 关 版 本 改 用 接口 索引 指定 接口 ， 以 取代 IPv4 版 本 使 
用 本 地 单 播 地 址 指定 接口 的 做 法 ， 意 图 在 于 允许 在 未 指定 网 络 地 址 的 
(unnumbered) 接口 或 隧道 端点 (tunnel endpoint) 上 执行 加 入 。 


原始 的 IPv6 多 播 API 定 义 使 用 了 IPV6_ADD_MEMBERSHIP 而 不 是 
IPV6_JOIN_GROUP。 稍 后 讲解 的 mcast_join 函 数 隐 沽 了 这 两 个 版 
本 的 差异 。 


2. IP DROP MEMBERSHIP 、IPV6_LEAVE_GROUP 和 
MCAST LEAVE GROUP 


离开 指定 的 本 地 接口 上 不 限 源 的 多 播 组 。 我 们 刚才 给 出 的 加 入 不 
限 源 多 播 组 所 用 的 结构 同样 适用 于 本 套 接 字 选项 的 各 种 版 本 。 如 果 示 
指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 TINADDR_ANY， 对 于 IPv6 为 0 
值 接口 索引 ) ， 那 么 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 


如 果 一 个 进程 加 入 某 个 多 播 组 后 从 不 显 式 离开 该 组 ， 那 么 当 相 应 
套 接 字 关闭 时 〈 因 显 式 地 关闭 ， 或 因 进 程 终止 ) ， 该 成 员 关 系 也 目 动 
地 抹 除 。 单 个 主机 上 可 能 有 多 个 套 接 字 各 目 加 入 相同 的 多 播 组 ， 这 种 
情况 下 ， 单 个 套 接 字 上 成 员 头 系 的 抹 除 不 影响 该 主机 继续 作为 该 多 播 
组 的 成 员 ， 直 到 最 后 一 个 套 接 字 也 离开 该 多 播 组 。 


原始 的 IPv6 多 播 API 定 义 使 用 的 是 IPV6_DROP_MEMBERSHIP 而 不 
A-IPV6 LEAVE 
GROUP。 稍 后 讲解 的 mcast_leave 函 数 隐藏 了 这 两 个 版 本 的 差异 。 
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3. IP BLOCK SOURCETIMCAST BLOCK SOURCE 


对 于 一 个 所 指定 本 地 接口 上 已 存在 的 一 个 不 限 源 的 多 播 组 ， 在 本 
套 接 字 上 阻塞 接收 来 目 某 个 源 的 多 播 分 组 。 如 果 加 入 同一 个 多 播 组 的 
所 有 套 接 字 都 阻塞 了 相同 的 源 ， 那 么 主机 系统 可 以 通知 多 播 路 由 器 这 
种 分 组 流通 不 再 需要 ， 并 可 能 由 此 影响 网 络 中 的 多 播 路 由 。 该 套 接 字 
选项 可 用 于 忽略 壁 如 说 来 目 无 赖 发 送 进程 的 分 组 流通 。 对 于 IPv4 版 
本 ， 本 地 接口 由 某 个 单 播 地 址 指定 ; 对 于 与 IP 协 议 无 天 的 API， 本 地 接 
口 由 某 个 接口 索引 指定 。 以 下 2 个 结构 在 阻塞 或 开通 某 个 源 时 使 用 。 


struct ip_mreq_source { 

struct in_addr imr multiaddr; /* IPv4 class D 
multicast addr */ 

struct in addr imr sourceaddr; /* IPv4 source addr 
*/ 


struct in_addr imr_interface; /* IPv4 addr of 
local interface */ 


struct group_source_req { 


unsigned int gsr_interface; /* interface 
index, or 0 */ 

struct sockaddr_storage gsr group; /* IPv4 or IPv6 
multicast addr */ 

struct sockaddr storage gsr source; /* IPv4 or IPv6 


source addr */ 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 (INADDR ANY) 或 与 协议 
无 关 的 API 的 0 值 索 引 ， 那 就 由 内 核 选 择 与 首 个 匹配 的 多 播 组 成 员 关 系 
对 应 的 本 地 接口 。 


源 阻 塞 请 求 修 改 已 存在 的 组 成 员 关 系 ， 因 此 必须 已 经 使 用 
IP_ADD_MEMBERSHIP、IPV6_JOIN_GROUP 或 
MCAST_JOIN_GROUP 在 对 应 的 接口 上 加 入 对 应 的 多 播 组 。 


4. IP_UNBLOCK_SOURCE 和 MCAST_UNBLOCK_SOURCE 


开通 一 个 移 前 被 阻塞 的 源 。 我 们 刚才 给 出 的 用 于 阻塞 菏 个 源 的 结 
构 同 样 适 用 于 本 套 接 字 选项 的 各 种 版 本 。 


如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 INADDR_ANY ， 
对 于 与 协议 无 关 的 API 为 0 值 索引 ) ， 那 么 开通 首 个 匹配 的 被 阻塞 源 。 


5. IP_ADD_SOURCE_MEMBERSHIP 和 MCAST_JOIN_SOURCE_GROUP 


在 一 个 指定 的 本 地 接口 上 加 入 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 
给 出 的 用 于 阻塞 或 开通 某 个 源 的 结构 同样 适用 于 本 套 接 字 选 项 的 各 种 
版 本 。 在 这 个 本 地 接口 上 绝 不 能 作为 不 限 源 的 多 播 组 已 经 或 将 要 使 用 
IP ADD MEMBERSHIP ` IPV6 JOIN GROUPZE 
MCAST_JOIN_GROUP 加 入 这 个 多 播 组 。 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 (INADDR ANY) 或 与 协议 
无 关 的 API 的 0 值 索引 ， 那 就 由 内 核 选 择 一 个 本 地 接口 。 
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6.IP DROP SOURCE MEMBERSHIP 和 
MCAST LEAVE SOURCE GROUP 


在 一 个 指定 的 本 地 接口 上 离开 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 
给 出 的 用 于 阻塞 或 开通 某 个 源 的 结构 同样 适用 于 本 套 接 字 选 项 的 各 种 
版 本 。 如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 
INADDR_ANY， 对 于 与 协议 无 关 的 API 为 0 值 接口 索引 ) ， 那 么 抹 除 首 
个 匹配 的 特定 于 源 的 多 播 组 成 员 关 系 。 


如 果 一 个 进程 加 入 某 个 特定 于 源 的 多 播 组 后 从 不 显 式 离开 该 组 ， 
那么 当 相应 的 套 接 字 关闭 时 (或 因 显 式 地 关闭 ， 或 因 进 程 终止 ) . 3X 
成 员 关 系 也 目 动 地 抹 除 。 单 个 主机 上 可 能 有 多 个 套 接 字 各 目 加 入 相同 
的 源 特 定 多 播 组 ， 这 种 情况 下 ， 单 个 套 接 字 上 成 员 关 系 的 抹 除 不 影响 
该 主机 继续 作为 该 多 需 组 的 成 员 ， 直 到 最 后 一 个 套 接 字 也 离开 该 多 播 


= 


7. IP MULTICAST IFZHIIPV6 MULTICAST IF 


指定 通过 本 套 接 字 发 送 的 多 播 数 据 报 的 外 出 接口 。 对 于 IPv4 版 
本 ， 该 接口 由 某 个 in_addr 结 构 指定 ; 对 于 IPv6， 该 接口 由 某 个 接口 
索引 指定 。 如 果 其 值 对 于 IPv4 为 INADDR_ANY， 对 于 IPv6 为 0 值 接口 索 
引 ， 那 么 先前 通过 本 套 接 字 选 项 指派 的 任何 接口 将 被 抹 除 ， 系 统 改 为 
每 次 发 送 数据 报 都 选择 外 出 接口 。 


注意 仔细 区 分 当 进程 加 入 多 播 组 时 指定 的 (或 由 内 核 选 定 的 ) 本 
地 接口 (到 达 多 播 数据 报 通过 该 接口 接收 ) 以 及 当 进 程 送 出 多 播 数据 
报时 指定 的 (或 由 内 核 选 定 的 本 地 接口 。 


源 目 Berkeley 的 内 核 通 过 在 普通 的 IP 路 由 表 中 查找 通 往 目的 多 播 地 
址 的 路 径 来 选择 多 播 数 据 报 的 默认 外 出 接口 。 同 样 的 技术 也 用 于 选择 
接收 接口 ， 前 提 是 进程 在 加 入 多 播 组 时 未 指定 这 个 接口 。 这 里 假定 如 
果 存 在 通 往 某 个 给 定 多 播 地 址 的 一 个 路 径 〈 或 许 是 路 由 表 中 的 默认 路 
径 ) ， 那 么 该 路 径 对 应 的 接口 应 该 既 用 于 输出 ， 也 用 于 输入 。 


8. IP_MULTICAST_TTL 和 IPV6_MULTICAST_HOPS 


给 外 出 的 多 播 数 据 报 设置 IPv4 的 TTL 或 ITPv6 的 跳 限 。 如 果 不 指 
定 ， 这 两 个 版 本 就 都 默认 为 1， 从 而 把 多 播 数 据 报 限 制 在 本 地 子 网 。 


9. IP_MULTICAST_LOOP 和 IPV6_MULTICAST_LOOP 


开局 或 禁止 多 播 数 据 报 的 本 地 上 自 环 《〈 即 回馈 ) 。 默 认 情 况 下 回馈 
开局 : 如 果 一 个 主机 在 某 个 外 出 接口 上 属于 某 个 多 播 组 ， 那 么 该 主机 
上 由 某 个 进程 发 送 的 目的 地 为 该 多 播 组 的 每 个 数据 报 都 有 一 个 副本 回 
局 ， 被 该 主机 作为 一 个 收取 的 数据 报 处 理 。 


类 似 广播 的 是 ， 一 个 主机 上 发 送 的 任何 广播 数据 报 也 被 该 主机 作 
为 收取 的 数据 报 处 理 (图 20-4) 。 (对 于 广播 而 言 ， 这 种 回馈 无 法 茶 
tke) 这 一 点 意味 着 如 果 一 个 进程 同时 属于 所 发 送 数据 报 的 目的 多 播 
组 ， 它 就 会 收 到 目 己 发 送 的 任何 数据 报 。 
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在 这 里 讨论 的 回馈 是 在 IP 层 或 更 高 层 进行 的 内 部 回馈 。 要 是 接口 
听 到 了 自己 发 送 的 比特 位 流 ，RFC 1112 [Deering 1989] 要 求 驱 动 程 
序 丢 弃 这 些 副 本 。 该 RFC 同 时 声明 本 回馈 套 接 字 选项 默认 情况 下 开局 
的 原因 在 于 作为 “一 个 针对 某 些 上 层 协议 的 性 能 优化 手段 ， 这 些 协 议 

(如 路 由 协议 ) 把 一 个 多 播 组 的 成 员 关 系 限 定 为 每 个 主机 只 有 一 个 进 
程 属于 该 多 播 组 ”。 


上 述 9 个 套 接 字 选 项 中 (包括 它们 的 各 种 版 本 ) ， 前 6 个 影响 多 播 
数据 报 的 接收 ， 而 后 3 个 影响 多 播 数据 报 的 发 送 〈 外 出 接口 、TTL 或 跳 
限 及 回馈 ) 。 我 们 以 前 提 到 过 多 播 数据 报 的 发 送 无 需 任 何 特殊 处 理 。 
如 采 在 发 送 多 播 数据 报 之 前 没有 指定 影响 发 送 的 多 播 套 接 字 选项 ， 那 
人 TIL 或 跳 限 将 为 1， 并 有 一 个 副本 


为 了 接收 目的 地 址 为 某 个 组 地 址 且 目 的 端口 为 某 个 端口 的 多 播 数 
据 报 ， 进 程 必须 加 入 该 多 播 组 ， 并 捆绑 该 端口 到 荣 个 UDP 套 接 字 。 这 
两 个 操作 古 截 然 不 同 的 ， 不 过 都 是 必需 的 。 多 播 组 加 入 操作 告知 所 在 
主机 的 IP 层 和 数据 链 路 层 接收 发 往 该 组 的 多 播 数据 报 。 端 口 捆绑 操作 
则 是 应 用 进程 同 UDP 指示 筷 想 接收 发 往 该 端口 之 数据 报 的 手段 。 有些 
应 用 进程 除 端 口外 还 把 多 播 地 址 也 捆绑 到 某 个 套 接 字 ， 从 而 防止 所 在 


主机 IP 层 把 为 该 端口 收取 的 目的 地 址 为 其 他 单 播 、 广 播 或 多 播 地 址 的 
数据 报 递送 到 该 套 接 字 。 


为 了 接收 目的 地 址 为 某 个 多 播 组 目的 端口 为 某 个 端口 的 数据 报 ， 
历史 上 源 自 Berkeley 的 实现 曾经 只 要 求 某 个 套 接 字 加 入 该 多 播 组 ， 而 
这 个 套 接 字 不 必 是 捆绑 该 套 接 字 从 而 接收 这 些 数据 报 的 那个 套 接 字 。 
然而 这 些 实现 存在 把 多 播 数 据 报 递送 到 无 多 播音 识 之 应 用 进程 的 潜在 
可 能 性 。 新 的 多 播 内 核 要 求 进程 为 用 于 接收 多 播 数据 报 的 套 接 字 捆 绑 
相应 端口 并 任意 设置 一 个 多 播 套 接 字 选项 ， 其 中 后 者 作为 该 应 用 进程 
具备 多 播 意识 的 指示 。 最 通常 设置 的 多 播 套 接 字 选项 是 多 播 组 的 加 
入 。Solaris 的 做 法 有 所 不 同 ， 它 只 把 收 到 的 多 播 数 据 报 递送 到 既 加 入 
了 多 播 组 又 绑 定 了 端口 的 套 接 字 。 为 便于 移植 起 见 ， 所 有 多 播 应 用 程 
序 都 应 该 加 入 组 并 捆绑 端口 。 


较 新 的 多 播 API 文 持 束 如 Solaris 那 样 强调 加 入 多 播 组 是 接收 多 播 数 
据 报 的 必要 条 件 : IP 层 只 把 多 播 数据 报 递送 给 已 经 加 入 相应 的 多 播 组 
和 /或 单 播 源 的 套 接 字 。 这 个 做 法 是 随 着 IGMPv3 (REC 3376 [Cain et 
al.2002] ) 而 引入 的 ， 意 在 允许 源 过 滤 和 源 特定 多 播 。 它 强调 加 入 组 
这 个 需求 ， 而 放松 捆绑 组 地 址 的 需求 〈 这 个 需求 本 来 就 是 非 必要 
a 多 播 应 用 程序 应 该 加 入 组 并 捆绑 端口 和 


有 些 较 老 的 具备 多 播 能 力 的 主机 不 允许 把 多 播 地 址 捆绑 到 套 接 
字 。 为 了 便于 移植 ， 应 用 程序 可 以 忽略 bind 多 播 地 址 返回 的 错误 ， 并 
用 INADDR_ANY 或 in6addr_any 再 次 党 试 bind。 
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21.7 mcast_join 和 相关 函数 


尽管 多 播 套 接 字 选 项 的 IPv4 和 IPv6 版 本 彼此 相似 ， 但 是 仍 有 过 多 
差别 造成 使 用 多 播 的 协议 无 关 代 码 因 插入 大 量 的 #ifdef 伪 代码 而 
得 次 乱 不 堪 。 一 个 较 好 的 解决 办 法 是 使 用 以 下 12 个 函数 隐藏 这 些 区 


aS 


#include "unp.h" 


int mcast_join(int sockfd, const struct sockaddr *grp, socklen_t 
grplen, 
const char *ifname, u_int ifindex); 


int mcast_leave(int sockfd, const struct sockaddr *grp, socklen_t 
grplen); 


int mcast block source(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


int mcast unblock source(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


int mcast join source group(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen, 
const char *ifname, u int ifindex); 


int mcast leave source group(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 

int mcast set if(int sockfd, const char *ifname, u int ifindex); 


int mcast set loop(int sockfd, int flag); 


int mcast set ttl(int sockfd, int ttl); 


以 上 均 返 回 : ÆR 


功 则 为 96， 若 出 错 则 为 -1 


int mcast_get_if(int sockfd); 


返回 : 若 成 功 则 为 非 负 
接口 索引 ， 若 出 错 则 为 -1 


int mcast get loop(int sockfd); 


返回 : 若 成 功 则 为 当前 


回馈 标志 ， 若 出 错 则 为 -1 


int mcast get ttl(int sockfd); 


返回 : 若 成 功 则 为 当前 


TTL 或 跳 限 ， 若 出 错 则 为 -1 
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mcast_join 加 入 一 个 不 限 源 的 多 播 组 ， 该 组 的 IP 地 址 存放 在 由 
grp 指 向 的 长 度 为 grplen 的 套 接 字 地 址 结构 中 。 我 们 可 以 指定 在 其 上 加 
入 该 组 的 接口 ， 或 者 使 用 接口 名 字 (一 个 非 空 的 ifname) ， 或 者 使 用 
非 零 的 接口 索引 (ifindex) ， 若 两 者 都 没有 指定 则 由 内 核 选 择 这 个 接 
口 。 如 前 所 述 对 于 IPv6， 接 口 通过 其 索引 指定 给 套 接 字 选 项 ， 如 果 给 
定 的 是 接口 名 字 ， 那 就 调用 if_nametoindex 获 取 其 索引 。 对 于 
IPv4， 接 口 通 过 其 单 播 IP 地 址 指定 给 套 接 字 选项 : 如果 给 定 的 是 接口 
名 字 ， 那 就 以 SIOCGIFADDR 请 求 调 用 ioct1 函 数 获 取 其 单 播 了 也 地址; 
如 果 给 定 的 是 接口 索引 ， 那 就 先 调用 if_indextoname 了 苏 数 获取 其 名 
字 ， 再 如 刚才 所 述 处 理 该 名 字 。 


让 用 户 指 定 接口 通常 采用 接口 的 名 字 (譬如 le0 或 ether9) , mu 
不 用 接口 的 也 地址 或 索引 。 举 例 来 说 ，tcpdump 是 允许 用 户 指定 接口 
的 少数 几 个 程序 之 一 ， 它 的 -i 选项 以 一 个 接口 名 字 作 为 参数 。 


mcast_leave 离 开 一 个 不 限 源 的 多 播 组 ， 该 组 的 IP 地 址 存放 在 由 
grp 指 向 的 长 度 为 grplen 的 套 接 字 地 址 结构 中 。mcast_1Leave 不 能 指 
定 早 先 在 其 上 加 入 该 组 的 接口 ， 它 总 是 抹 除 首 个 匹配 的 多 播 组 成 员 关 
系 。 这 么 做 简化 了 库 函 数 接口 ， 需 要 针对 接口 控制 组 成 员 关 系 的 程序 
却 不 得 不 直接 使 用 setsockopt 函 数 。 


mcast_block_source 阻 塞 接收 从 定单 播 源 到 给 定 多 播 组 的 数 
据 报 ， 其 中 单 播 源 和 多 播 组 分 别 由 src 和 grp 指 向 的 长 度 分 别 为 srclen 和 
grplen 的 两 个 套 接 字 地 址 结构 给 出 。 本 套 接 字 上 必须 已 为 给 定 多 播 组 
调用 过 mcast_join。 


mcast_unblock_source 开 通 从 给 定单 播 源 到 给 定 多 播 组 的 数 
据 报 接收 。 所 指定 的 参数 必须 与 早先 某 个 mcast_block_source 调 
用 一 致 。 


mcast_join_source_group 加 入 一 个 特定 于 源 的 多 播 组 ， 该 
源 和 该 组 分 别 由 src 和 grp 指 向 的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 
字 地 址 结构 给 出 。 在 其 上 加 入 该 多 播 组 的 接口 可 以 使 用 接口 名 字 (一 
个 非 空 的 加 ame) 或 非 零 的 接口 索引 (ifindex) 指定 ， 若 两 者 都 未 指定 
则 由 内 核 选择 这 个 接口 。 


mcast_leave_source_group 离 开 一 个 特定 于 源 的 多 播 组 ， 该 
源 和 该 组 分 别 由 src 和 和 grp 指 癌 的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 
字 地 址 结构 给 出 。 与 mcast_leave 一 样 ， 本 函数 也 不 能 指定 早先 在 
其 上 加 入 该 组 的 接口 ， 它 总 是 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 


mcast_set_ if 设置 外 出 多 播 数 据 报 的 默认 接口 索引 。 如 果 
i 访 ame 非 空 ， 那 么 它 指定 接口 的 名 字 ; 否则 如 果 访 ndex 大 于 0， 那 么 它 
指定 接口 的 索引 。 对 于 IPv6， 接 口 从 名 字 到 索引 的 映射 调用 
if_nametoindex 完 成 。 对 于 IPv4， 接 口 从 名 字 或 索引 到 单 播 IP 地 址 
的 映射 使 用 与 mncast_join 一 样 的 方法 完成 。 


mcast_set_1oop 把 回馈 套 接 字 选项 设置 为 1 或 0， 
mcast_set_tt1 则 设置 IPv4 的 TTL 或 IPv6 的 跳 限 。3 个 
mcast get XXX 函数 返回 相应 的 值 。 
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21.7.1 例子 : mcast joinENZX 


图 21-10 给 出 了 mcast_ joinENZKB BI — 47 2 — Aba 9 ARB 
IP 无 关 套 接 字 选项 版 本 © 


libvincast_join.c 


1 #incluce "unp.lh* 
2 tincluce «net/if.h» 


3 int 
4 meast join(int ecckfd, const SA *grp, Eocklen t grplen, 


ccnst char *iframe, J int ifindsx) 
6 - 
7 #itdet MIAST JOIN GROUP 
6 struct group req req: 
> i* (ifin2ex > 3) | 
10 re3.qgr interface = ifindex; 
11 } else if (:fmame !- NULL) { 
12 if | ireqg.gr interface = if nametoindexiifname!) == 0) { 
1: errno = ENAIO; /* i/f nans not found */ 
14 rezum(t-1) ; 
15 ) 
l6 } eise 
17 req.gr_interfece - 0 
18 i? (garrien > sizeof (req gr_srcoup)) ( 
19 errnc = ZINVAL; 
20 return -1; 
21 ) 
22 memcpy PAA ar group, grp, zrxc.emn); 
25 return [{setsocxopt (sockfd, family to levelilgrp-»sa family), 
24 MCAST JOIN GROUP, &req, sizeof {req))); 
25 #elce 


libéncasr joine 


Al21-10 ”加 入 一 个 多 播 组 : IP 无 关 套 接 字 


处 理 索引 


9-17 如 果 调 用 者 给 定 接口 索引 ， 那 就 直接 使 用 它 。 否 则 如 果 调 
用 者 给 定 接口 名 字 ， 那 就 调用 if_nametoindex 把 名 字 转 换 成 索引 。 
再 不 然 就 把 接口 索引 置 为 0， 告 知 内 核 去 选择 接口 。 


复制 地 址 并 调用 setsockopt 


18-22 把 调用 者 给 定 的 套 接 字 地 址 结构 直接 复制 到 一 个 
group_req 结 构 中 。 该 结构 的 gr_group 成 员 是 一 个 
sockaddr_storage 结 构 ， 足 以 存放 系统 支持 的 任何 地 址 类 型 。 然 
而 为 了 防备 因 代码 编 写 不 慎 而 引起 缓冲 区 洪 出 ， 我 们 仍然 oe 
AS EN RSL AAC), atin EIEINVALERIR ° 


23-24 setsockopt 执 行 组 加 入 操作 。setsockopt 的 level 参 
数 由 我 们 的 family_to。” level 画 数 根据 组 地 址 的 地 址 族 确 定 。 一 
些 系 统 支 持 level 参 数 和 套 接 字 地 址 族 的 不 匹配 ， 例 如 ， 为 
MCAST_JOIN_GROUP 甚 至 是 AF_INET6 套 接 字 使 用 IPPROTO_IP， 但 


也 并 非 全 部 文 持 。 这 样 一 来 我 们 可 以 把 地 址 族 维持 在 一 个 适当 的 水 
p i 全 出 这 个 无 关 紧 要 的 函数 ， 不 过 其 源 代 码 同样 随意 可 得 
VUE: n 


567 


图 21-11 给 出 了 mcast_join 函 数 的 中 间 三 分 之 一 部 分 。 这 部 分 处 
理 IPv4 套 接 字 选项 版 本 。 


libéncast join.c 


26 swiren (grp-»ss famiiy!: ( 

27 case AP INET: | 

E struct ip mreq mreq; 

293 struct =frery irez; 

30 mencpy(amreq.imr multiaddr, 

31 &(:2onst struct sockaddr in *) grp)-»5in addr. 

32 sizætť struct in ackir)!; 

33 ii [(ifindex > 0) ( 

34 if (if indexconans(ifindex, i#reg.ifr_ name) == NULL) { 
35 errno = ZNXIO,; /* i/f index not found */ 

36 rcturn(-1):; 

37 } 

38 goto doicctl; 

39 ) else if (ifmame != NULL) ( 

40 strncpy'ifzeq.ifr nane, iiname, IFXAMSIZI; 

41 doioct.: 

42 if (toctl;sock*d, SIOCGIFADDR, &i*re-) < 0) 

43 return(-1); 

44 vewncrzy(&mreq.imr interface. 

45 &('struct sockaddr in *) Rifrseq.:fr addr)-2sin adir, 
46 sizeof (struct in_addr) |; 

47 ) sise 

aa mrecg. mr inLer^sce. s addr = htonl (THANTR_ANY) ; 

49 return (setsockopt (sockfd, IFPROTO IP, IP ALD MEMBERSHIP, 
£0 S&nreg, sizeof (mreq))); 

51 } 


lib/mcast joine 


图 21-11 加 入 一 个 多 播 组 :IPv4 套 接 字 


处 理 索引 


33-38 把 套 接 字 地 址 结构 中 的 IPv4 多 播 地 址 复制 到 一 个 
ip_mreq 结 构 中 。 如 果 调 用 者 给 定 接口 索引 ， 那 就 调用 
if_indextoname 把 接口 名 字 存 入 一 个 jfreq 结 构 中 。 该 调用 成 功 返 
回 后 ， 我 们 往 前 跳 转 以 发 出 ioct1 请 求 。 


处 理 名 字 

39-46 把 调用 者 给 定 的 接口 名 字 复 制 到 一 个 ifreqd 结 构 中 ， 并 
发 出 ioct1 的 SIOCGIFADDR 请 求 返回 与 该 名 字 关 联 的 单 播 地 址 。 把 
成 功 返 回 的 IPv4 单 播 地 址 复制 到 那个 ijp_mreq 结 构 的 
imr_interface 成 员 。 
指定 默认 设置 


47-48 ”如 果 接 口 索 引 和 接口 名 字 痢 未 给 定 ， 那 束 把 接口 设置 为 
通 配 地 址 ， 告 知 内 核 去 选择 接口 。 


49-50 setsockopt 执 行 组 加 入 操作 。 


图 21-12 给 出 了 mcast_join 画 数 的 后 三 分 之 一 部 
IPv6 套 接 字 选项 版 本 。 
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lib/ncast join.c 
52 #ifdef  LPU6 


53 case AF_INETS: | 
54 struct ipvé_mres mreq6; 
35 memcoy(&mrez6.-pvSonr multieddr, 
5€ &(i2onst struct sockaddr ine *! grp)->sino addr, 
5" sizeof (struct ins addrl); 
ET: if (ifindex ~ 0) { 
59 mreq6.ipv6mr interface = ifirdex; 
50 ) alse is (irname |= NULL! [ 
61 if | (mreqé6.ipvéme_interface = Lf name-coindexiifnarne)) zm 0) ( 
62 ermo = ENXIO; /* i/f nave not found */ 
$3 rezurní-1): 
54 } 
55 ) eise 
66 mreqé6.ipvémr_interface = 0; 
7 recurn(eetcockopt(scc«fd, IPPRJUTO IPVé6, LPY6 COIN GROUP, 
AR fanregé, sizeof (wre) 1); 
69 } 
70 fendif 
71 default: 
72 errno m WAFNOSUPPORT; 
73 return(-1); 
74 } 
75 tendif 
76 ) 


lib/mcast joit.c 


图 21-12 ”加 入 一 个 多 播 组 : IPv6 套 接 字 


复制 地 址 


55-57 首先 把 套 接 字 地 址 结构 中 的 IPv6 多 播 地 址 复制 到 一 个 
ipv6_mreq 结 构 中 。 


处 理 索 引 、 名 字 或 默认 设置 

58-66 如果 调用 者 给 定 接口 索引 ， 那 就 把 该 索引 复制 到 
ipv6mr_interface 成 员 ; 否则 如 采 调 用 痢 给 定 接 口 名 字 ， 那 惑 调 
用 if_nametoindex 取 得 索引 ; 再 不 然 束 把 接口 索引 置 为 0， 告 知 内 
核 去 选择 接口 。 


67-68 最 后 调用 setsockopt 加 入 组 。 


21.7.2 ”例子 : mcast set loopEN?ZX 


图 21-13 给 出 了 我 们 的 mcast_set_loop 函 数 。 


lil/mzcst, sei loop.c 


1 include "urp.h" 

2 int 

3 moact set loop{int socktd, int onctf) 

at 

5 switch (sockfd tc family(sockfd)] | 

6 casa AF INET: ( 

了 u_char tlag; 

8 flag = onoff; 

9 return (setanckopt (sockf, T9PRÜTO TP, TP NHLTTICAST _[OOP, 
10 &flag, sizeof (flag))!; 
11 } 

12 #ifde= IPW6 

13 case AF INETé: | 

14 u int f-29g; 

15 flag = onoff; 

16 return(setsockopt|eockfz, ISPROTO_IPVé, IPVé MULTICAST LOCP, 
17 &flag, s-zeof(flag)'), 
1a } 

19 #endif 

ei default: 

21 errno = EAFNOSUPPORT; 

22 return(-1); 

23 } 

24 


lib/moost sei loor.c 


图 21-13 ”设置 多 播 回 馈 选 项 
既然 函数 参数 是 一 个 套 接 字 朱 述 符 而 不 是 一 个 套 接 字 地 址 结构 ， 
我 们 于 是 调用 自己 的 sockfd_to_family 函 数 获 取 该 套 接 字 的 地 址 
族 。 随 后 设置 相应 的 套 接 字 选项 。 


我 们 不 再 给 出 其 余 mcast_XXX 函 数 的 源 代 码 ， 不 过 它们 都 是 可 目 
由 获取 的 〈 见 前 言 ) 。 
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21.8 ”使 用 多 播 的 dg_cli 图 数 


我 们 通过 简单 地 去 掉 setsockopt 调 用 来 修改 图 20-5 中 的 dg_c1i 
函数 。 如 前 所 述 ， 如 果 外 出 接口 、TIL 和 回馈 选项 的 默认 设置 可 以 接 
受 ， 那 么 发 送 多 播 数据 报 无 需 设置 任何 多 播 套 接 字 选 项 。 我 们 指定 所 
有 主机 组 为 服务 器 地 址 来 运行 我 们 的 客户 程序 。 


macosx % udpcli01 224.0.0.1 
hi there 
from 172.24.37.78: hi there MacOS X 


from 172.24.37.94: hi there FreeBSD 


所 在 子 网 中 共有 两 个 主机 啊 应 。 它 们 具备 多 播 能 力 ， 从 而 都 加 入 
了 所 有 主机 组 ， 并 且 都 运行 痢 端 口号 为 7 的 标准 UDP 回 射 服务 器。 每 个 
应 管 数据 报 都 是 单 播 的 ， 因 为 请 求 数 据 报 的 单 播 源 地 址 被 每 个 服务 器 
用 作 应 答 数 据 报 的 目的 地 址 。 
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IP 分 片 和 多 播 


我 们 在 20.4 世 末尾 所 过 ， 大 多 数 系统 把 不 允许 对 广播 数据 报 执行 
分 片 作为 一 个 决策 。 分 搬 操作 对 于 多 播 数 据 报 却 不 成 问题 ， 我 们 可 以 
使 用 同一 个 含有 长 度 为 2000 字 贡 的 单个 文本 行 的 文件 简单 地 验证 。 


macosx % udpcli01 224.0.0.1 < 2000line 
from 172.24.37.78: XXXXXXXXXX[ ...] 


from 172.24.37.94: xxxxxxxxxx[...] 


21.9 ”接收 IP 多 播 基 础 设施 会 话 声明 


IP 多 播 基础 设施 (IP multicast infrastructure) 是 具备 域 间 多 播 能 
的 因特网 之 一 部 分 。 多 播 并 未 在 整个 因特网 上 开通 。 了 多 播 基 础 设施 
的 前 身 是 作为 一 个 层 琶 网 络 从 1992 年 开始 的 MBone (B.277) ， 到 1998 
年 转 成 作为 因特网 基础 设施 之 一 部 分 部 署 的 多 播 基础 设施 。 多 播 可 能 
EEN YE E ABEB ， 然 而 很 少 是 域 间 卫 多 播 基础 设施 的 构成 部 
Ly o 


为 了 在 IP 多 播 基础 设施 上 接收 一 个 多 媒体 会 议 ， 站 点 只 需要 知道 
该 会 议 的 多 播 地 址 及 其 会 议 数据 流 〈 音 频 和 视频 等 ) 所 用 的 UDP 端 
口 。 会 话 声 明 协 议 (Session Announcement Protocol，SAP， 见 RFC 
2974 |Handley, Perkins, and Whelan 2000] ) 描述 会 话 声明 方法 (多 播 
到 IP 多 播 基 础 设施 上 的 会 话 声明 所 用 的 分 组 首部 和 发 送 频率 ) ， 会 话 
描述 协议 (Session Description Protocol，SDP， 见 RFC 2327 |Handley 
and Jacobson 1998| ) 则 描述 所 声明 的 内 容 《如 何 指定 会 话 的 多 播 地 
址 和 UDP 端口 ) 。 想 要 在 IP 多 播 基 础 设施 上 声明 某 个 会 话 的 站 点 会 周 
期 性 地 往 一 个 众所周知 的 多 播 组 和 UDP 端口 发 送 包含 所 声明 会 话 的 某 
个 描述 的 一 个 多 播 分 组 。IP 多 播 基础 设施 上 的 站 点 运行 一 个 名 为 sdr 
的 程序 来 接收 这 些 声 明 。 这 个 程序 做 许多 工作 ， 不 仅 接 收 会 话 声 明 ， 
Ve anne 界面 以 显示 这 些 信 息 并 允许 用 户 发 送 目 己 
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图 21-14 给 出 了 接收 定期 多 播 的 SAP/SDP 声 明 的 程序 的 main 画 


数 


mysdr/nain.c 


1 #incluce "uup.h" 


2 Fdecine SAP NAME "sap.mcast.net" /* decault group nane and port */ 
3 £tde-ins SAP FORT "9375" 

4 void lozp(int, socklen t); 

5 int 


6 main(irt argc, char **argv]) 


& int 3ockEd; 

9 conet int cn = 1; 

10 seckicn t salen; 

11 struct eccxaddr tsa; 

12 i= (zr9Cc == 1) 

13 sockEd = Udp cliert(SAP NAME, SAP_PORT, (void **! &sa, Ssaleni ; 
14 else if (arg^ zs «| 

15 zocktd = Udp cliert(arqv[1], argv [4], (void **! ksa, &sa.sn); 
16 else 

17 err guit (usage: mysdr «mcast-addr» epor-8&» cinLerlacs-:ames'|!; 
15 Sets5ckopt(socxfá, SOL SOCKET, SO REUSEADDR, kcn, sizecf (on) ); 

19 Bind(secktd, sa, salon’; 

26 Mcast joiní(socxfd, sa, salen, [argc «= 4) 7 argv[3] : NULL, 0) 

21 leopíistckf£d, salen); /^ receive and arint */ 

22 exic(o); 


mvscrrain.c 


图 21-14 SAP/SDPF BB PATE maine 


众所周知 的 域名 和 众所周知 的 端口 


2-3 ”赋予 SAP 声 明 的 多 播 地 址 是 224.2.127.254， 它 的 域名 是 
sap ,mcast ,net。 所 有 众所周知 多 播 地 址 的 DNS 域名 (Ul 
http://www.iana.org/assignments/multicastaddresses) 都 出 现在 
mcast .net 层次 之 下 。 众 所 周知 的 UDP 端口 是 9875 ° 


创建 UDP 套 接 字 


12-17 我 们 调用 自己 的 udp_client 了 画 数 查找 名 字 和 端口 ， 并 
让 它 把 结果 信息 填写 到 合适 的 套 接 字 地 址 结构 中 。 如 果 命 令 行 参数 未 
曾 指 定 ， 我 们 就 使 用 默认 的 名 字 和 端口 ， 否 则 就 从 命令 行 参 数 中 取得 
多 播 地 址 、 端 口号 和 接口 名 字 。 


bind 端 口 
18-19 设置 SO_REUSEADDR 套 接 字 选项 以 允许 在 单个 主机 上 运 


行 本 程序 的 多 个 实例 ， 然 后 将 给 定 端口 bind 到 该 套 搂 字 。 通 过 将 给 定 
多 播 地 址 捆绑 到 该 套 接 字 ， 我 们 防止 该 套 接 字 接收 目的 端口 为 给 定 端 


口 的 其 他 UDP 数 据 报 。 多 播 地 址 的 捆绑 并 非 必 须 ， 不 过 它 提 供 了 由 内 
核 过 滤 非 所 关注 分 组 的 手段 。 


加 入 多 播 组 


20 


调用 mcast_join 函 数 加 入 给 定 组 。 如 果 接 口 名 字 已 经 作为 


命令 行 参 数 给 定 ， 那 就 把 它 传递 给 该 函数 ;否则 就 让 内 核 去 选择 在 哪 
个 接口 上 加 入 组 。 


241 我 们 调用 图 21-15 中 给 出 的 1oop 画 数 读 取 并 显示 所 有 的 声 


HH 。 


1 


mysd'«'oop.c 


include "nysdr.h" 


2 void 


3 Looplin- seckic, eccklen_t salen) 


sccklen t len 

SBLEC t n; 

char *p; 

struct sockacdr “sa, 

strucz sap packct { 
uin-32 t sap header; 


uin-32 r sap arc; 


char sap data [BUPFSIZE]} : 
] buf; 
sa = Malloc(salen); 
fcr o3 1d 
ler = salen; 
n  Recvfrcn(sockfd, sbuf, sizeof(buf; - i, J, sa, &len); 
((char *)&-u£) [n] = 0; /* null terminate +/ 


buf.saz header = ntohl|buE.Sap header; ; 
print ("Fron ts hash Oxtodx\n", Sock ntosisa, len), 
bul sag header & SAF HASH MASK): 
i= [((zuf.sap header & SAP VERSION MASK] >> ZA2 VERSION_SHIPT) = 1) { 


err rsq{"... version field not 1 (Ux&Osx) ", buf.sap hsacer); 
vor d inae; 
i 
i= (buE.sap header & EAP IPv6) [ 
erc vx" ITPA"), 
continue; 
} 
1* (mf sap header & (Snap DELZTE|SAP ENCRY7T*D|SAP COMPRESSEDI) | 
e-r xsgl"... can't parse this packet typs (O0x$0Ex)*", 
buE .cap header} ; 


continue; 


} 
p = buf.sap data + ((rzuf.sap neader & SAP AUTHLEN MASH) 
>> SAP AUTHLEN SHIFT) ; 
iZ (steoup(p, “applicalion/sip’| == C) 
+= 15; 


prantt(*"%s\n", pl; 


mysdv/toor.c 


图 21-15 ”接收 并 显示 SAP/SDP 声 明 的 循环 
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分 组 格式 

9-13 sap_packet 结 构 描 述 SDP 分 组 : 一 个 32 位 SAP 首 部 ， 后 
跟 一 个 32 位 源 地 址 ， 再 跟 真 正 的 声明 。 疡 明 仪 仪 是 若干 行 ISO 8859-1 
文本 ， 不 得 超过 1024 字 节 。 每 个 UDP 数据 报 只 能 承载 一 个 会 话 声明 。 
读 入 UDP 数据 报 ， 输 出 发 送 者 和 内 容 

15-21 recvfrom 等 竺 下 一 个 到 达 套 接 字 的 UDP 数据 报 。 一 个 
UDP 数据 报到 达 后 ， 我 们 在 存放 它 的 缓冲 区 末尾 放置 一 个 空 字 节 ， 修 
正 首 部 字段 的 字 节 序 ， 然 后 显示 其 发 送 者 的 IP 地 址 和 端口 号 ， 并 显示 
SAP 散 列 值 。 
检查 SAP 首 部 

22-34 检查 SAP 首 部 ， 确 认 是 否 为 我 们 处 理 的 类 型 。 我 们 不 处 
理 在 首部 中 使 用 PPv6 地 址 的 SAP 分 组 ， 也 不 处 理 压 缩 的 或 加 密 的 分 
ZH o 
找到 声明 起 始 处 并 显示 


35-39 跳 过 可 能 存在 任何 认证 数据 和 分 组 内 容 类 型 ， 然 后 显示 
分 组 的 内 容 。 


图 21-16 给 出 了 出 目 本 程序 的 一 些 典 型 输出 。 


freoksd % mysdr 

From 1273.223.83.33:1928 ash oxünan 

v=0 

C-- 60345 0 IN IE4 126.223.214.193 

£-UO Broadcast - NASA Vidsoc - 25 Yearc o: Progress 

1225 Years of Progress, parre 1-13. Rreadeast with Ciacr System's 
IP/TV asing MPEGS] codec (€ hours 5 Minutes; repeats) More inforwaticn 
about IP/TV end the client nseded to view this program is availeble 
from hrtp: //videclab.uorscon.edu/download.html 

ushttp: //wi den ah-uoregon .edu/ 

e=Hans Kuhn «uulticastelists.uoregcon,edu» 

E-Hans Kuhn <541/346-1753- 

E2A3:11020 

t=0 C 

a-type;2roadcast 

aztocl;IP/TV Content Manager 3.2.24 

a=x-iptv-filari name y:25y0pl1234557892123.mpg 

M=Video 63095 RTE/AVP 32 31 95 

C-IN IP4 224.2.2435.25/127 

a=framerate: 30 

a-rtpmao:96 WBIH/SQ020 

a=x-iptv-svr:videc blasrerz2 usregon.edu file | loop 

teauiio 31954 RTP/AVP 14 96 0 2 5 97 38 99 100 10: 102 10 11 103 104 105 106 

c=IN IP4 224.2.216.85/127 

a-rtpmas:96 X-WAVE/9200 

a=ripman:s7 Lé,/so00/2 

asrL.pumap:$8 L&/8000 

e-rtpmap:99 L6/22050/2 

a-rzpmap:100 L8/22052 

asrrpman:101 TA/11025/2 

azrlpuap:102 L8/11025 

&-rtpmao:.103 Ll.0/22050/2 

a-rcpmap:104 L16/22050 

asrrpman:105 T/5/11025/2 

a=ripmap:106 Ll6/11025 

a-x-iptv-svz;&udic blasterz.usreqon.edu file 1 loop 


[21-16 ”典型 的 SAP/SDP 声 明 


5/4 


这 个 声明 描述 的 是 NASA 在 IP 多 播 基础 设施 上 关于 某 次 航天 飞机 
使 命 的 报道 。SDP 会 话 描述 由 许多 形 如 type=value 格 式 的 文本 行 构成 ， 
其 中 type 总 是 单个 字符 有 旦 区 分 大 小 写 。value 则 是 一 个 依赖 于 type 的 有 
结构 的 文本 串 。 等 号 两 边 不 允许 有 空格 。 


v=0 是 版 本 。 


0= 是 来 源 。- 表 示 无 确切 用 户 名 ，60345 是 会 话 ID，0 是 这 个 声明 
的 版 本 号 ，IN 是 网 络 类 型 ，IP4 是 地 址 类 型 ，128 .223.214.198 是 
地 址 。 由 用 户 名 、 会 话 ID、 网 络 类 型 、 地 址 类 型 和 地 址 构成 的 五 元 组 
是 本 会 话 的 一 个 全 球 唯 一 的 标识 。 


s= 定 义 会 话 名 字 ，i= 给 出 关于 会 话 的 信息 。 我 们 对 后 者 按 每 80 个 
字 节 一 次 作 了 折 行 处 理 。u= 给 出 一 个 统一 资源 标识 (Uniform 
Resource Identifier, URI) ， 其 上 提供 关于 本 会 话 的 更 详细 信息 ，e= 
和 p= 则 分 别提 供 会 议 负 责 人 的 电子 邮件 地 址 和 电话 号 码 。 


b= 提供 本 会 话 预 期 市 宽 的 一 个 测算 量 。t= 提 供 均 以 NTP 单 位 给 出 
的 起 始 时 间 和 停止 时 间 ， 即 从 UTC 时 间 以 来 的 秒 数 。 本 会 话 是 永久 
的 ， 因 为 起 止 时 间 都 是 0。 


a= 御 属性 行 ， 帮 出 现在 任何 m= 行 之 前 则 为 会 话 属 性 ， 帮 出 现在 某 
个 m= 行 之 后 则 为 相应 媒体 的 属性 。 


m= 是 媒体 声明 ， 共 有 2 行 。 其 中 第 一 行 指明 视频 在 端口 63096 上 ， 
格式 为 实时 传输 协议 (Real-time Transport Protocol, RTP) ， 使 用 音 
频 / 视 频 轮 廓 (Audio/Video Profile) ， 可 能 净 集 类 型 为 32、31 和 96 (分 
别 表示 MPEG、H.261 和 WBIH) 。 紧 接 的 c= 行 提 供 本 媒体 连接 信息 ， 
在 本 例子 中 指明 该 连接 基于 IP， 使 用 IPvV4， 多 播 地 址 为 224.2.245.25， 
TTL 为 127。 虽 然 这 些 是 由 斜 杜 分 开 的 ， 就 如 同 CIDR 前 级 那样 ， 但 这 
Jte Fox Bil ZR ETRAS ° 
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若干 个 ， 其 中 一 些 是 标准 的 ， 一 些 由 随后 的 a=rtpmap :进一步 说 明 » 
紧 接 的 c= 行 提 供 本 媒体 的 连接 信息 ， 在 本 例子 中 指明 该 连接 基于 IP， 
使 用 IPv4， 多 播 地 址 为 224.2.216.85，TTL 为 127。 


21.10 ”发 送 和 接收 


上 一 市 中 的 IP 多 播 基础 设施 会 话 声明 程序 只 接收 多 播 数据 报 。 我 
们 在 本 节 开 发 一 个 既 发 送 义 接收 多 播 数据 报 的 简单 程序 。 该 程序 包含 
两 部 分 。 第 一 部 分 每 5 秒 钟 发 送 一 个 目的 地 为 指定 组 的 多 播 数 据 报 ， 其 
中 含有 发 送 进程 的 主机 名 和 进程 ID。 第 二 部 分 是 一 个 无 限 循 环 ， 先 加 
入 由 第 一 部 分 发 往 的 多 播 组， 再 显示 接收 到 的 每 个 数据 报 (其 中 含有 
发 送 进程 的 主机 名 和 进程 ID) 。 这 样 安排 使 得 我 们 可 以 在 一 个 局 域 网 
内 的 多 个 主机 上 局 动 该 程序 ， 以 便 查 看 哪个 主机 在 接收 来 目 哪些 发 送 
进程 的 数据 报 。 
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图 21-17 给 出 了 该 程序 的 main 函 数 。 


moarst mo tc 


T #ioclude "Unc Tw" 


2 void recv all/;int, socklen t): 

3 void seni slliint, SA *, Socklen t); 

4 int 

© main(int arge, char **argv) 

e ( 

7 int sendtd, recvtd; 

C const int or = 1l; 

S socklen t salen; 

1c struct sockaddr *sasend, *sarecy; 

11 if [argc != 3) 

12 ery qui-;"'usagc: sendrecy <IP-multicast address> «pcrt$-";; 
13 sendfd = Udp clientí(srgv[1], azgvl2], (void **) &saserd, Ssalen!; 
14 recvfd = Socket (sasend->sa_family, BOCK DGRAM, 0); 

15 Seteockoptí(recvtd, SUL SCCXET, SO RsUSEADDE, &on, sizeof ioni); 
1€ garecy = Mallcec(salen) ; 

17 tenmcpy(sarecy, sasend, salen) ; 

18 Bind(recvfd, sarecv, salen); 

1s Meas= join(recvfd, sasend, saler, NULL, 0); 

2c Meast_oct_.sopisendtd, 0); 

21 if [Fork() -- 0) 

22 reev_sll{recvfd, salen); f* child -> receives */ 

23 send all(serdfd, sasend, salen); f* parent -> sends */ 

24 } 


mncast/miain.c 


图 21-17 创建 套 接 字 ，fork， 再 启动 发 送 进程 与 接收 进程 


我 们 创建 两 个 套 接 字 ， 一 个 用 于 发 送 ， 另 一 个 用 于 接收 。 我 们 想 

要 给 接收 套 接 字 捆 绑 多 播 组 和 端口 ， 比 如 说 239.255.1.2 端 口 8888。 

(回顾 一 下 ， 我 们 可 以 只 捆绑 通 配 IP 地 址 和 端口 8888， 不 过 还 是 捆绑 
多 播 地 址 以 防止 目的 端口 同 为 8888 的 其 他 数据 报到 达 本 套 接 字 。) 接 
着 想 要 接收 套 接 字 加 入 多 播 组 。 发 送 套 接 字 将 发 送 数据 报到 同一 个 多 
播 地 址 和 端口 ， 也 就 是 239.255.1.2 端 口 8888。 但 是 如 果 我 们 试图 用 单 
个 套 接 字 进 行 发 送 和 接收 ， 那 么 所 收发 数据 报 的 源 协 议 地 址 将 是 出 自 
bind 调 用 的 239.255.1.2:8888 (使 用 netstat 记 法 ) ， 目 的 协议 地 址 

(调用 sendto 时 指定 ) 也 将 是 239.255.1.2:8888。 这 么 一 来 ， 捆 绑 在 
该 套 接 字 上 的 源 协议 地 址 成 了 UDP 数据 报 的 源 IP 地 址 ， 而 RFC 1122 

[Braden 1989] 禁止 出 现 源 IP 地 址 是 多 播 地 址 或 广播 地 址 的 IP 数 据 报 

(见习 题 21.2) 。 因 此 ， 我 们 必须 创建 两 个 套 接 字 : 一 个 用 于 发 送 ， 
另 一 个 用 于 接收 。 


576 
创建 发 送 套 接 字 


13 ”我 们 的 udp_client 函 数 创建 发 送 套 接 字 ， 并 处理 指 定 多 播 
地 址 和 端口 号 的 那 两 个 命令 行 参数 。 该 函数 还 返回 可 用 于 调用 
sendto 的 一 个 套 接 字 地 址 结构 及 其 长 度 。 


创建 接收 套 接 字 并 捆绑 多 播 地 址 和 端口 


14~18 创建 接收 套 接 字 ， 所 用 地 址 族 与 创建 发 送 套 接 字 所 用 的 
一 样 。 设 置 SO_REUSEADDR 套 接 字 选项 以 允许 这 个 程序 的 多 个 实例 同 
时 在 单一 主机 上 运行 。 我 们 接着 给 这 个 套 接 字 分 配 一 个 套 接 字 地 址 结 
构 的 空间 ， 并 从 发 送 套 接 字 地 址 结构 复制 其 内 容 (发 送 套 接 字 的 地 址 
和 端口 取 自 命令 行 参数 ) ， 再 把 其 中 的 多 播 地 址 和 端口 bind 在 接收 套 
接 字 上 。 

加 入 多 播 组 并 禁止 回馈 

19-20 调用 我 们 的 mcast_join 函 数 在 接收 套 接 字 上 加 入 多 播 

组 ， 再 调用 我 们 的 mcast_set_1oop 画 数 禁 止 发 送 套 接 字 上 的 回馈 特 


性 。 加 入 多 播 组 时 指定 接口 名 字 为 空 指针 ， 接 口 索 引 为 0， 从 而 告知 内 
核 去 选择 接口 。 


fork 并 调用 相应 函数 
21-23 fork 后 子 进程 就 是 接收 循环 ， 父 进程 就 是 发 送 循环 。 


图 21-18 给 出 了 我 们 的 send_all 画 数 ， 它 每 5 秒 钟 发 送 一 个 多 播 
数据 报 。main 函 数 把 套 接 字 描述 符 、 指 向 包含 多 播 目 的 地 址 和 目的 端 
口 的 套 接 字 地 址 结构 的 指针 以 及 该 结构 的 长 度 作 为 参数 传递 给 


send all?»^ 


incastícend.c 


1 #incluie "ur p.h" 


2 #include «sys/utsname -有 > 

3 &define SENDRATE 5 /* send one datagram every five seconds */ 
4 void 

5 send alllirt sendfd, SA *sadest, socklen_t salen) 

24 

7 cnar Line [MAXLINE] ; /* hostrame and procece ID */ 

8 struct utaname myname; 

9 iE (uname(&mynams] < 0) 

10 err sysi"uname error") ;; 

11 sprintf iline, sizeof linel, "&s, d\n", mynam=.codenare, getpidl!)!; 
12 for 23$ bd 

13 Serdto(sendfd, line, strlen(line), 0, sadest, salen): 

14 Eleep(sENDAATE! ; 

15 j 

16 


incastÁeaudi 


图 21-18 每 5 秒 钟 发 送 一 个 多 播 数据 报 
获取 主机 名 并 形成 数据 报 内 容 


9~11 从 uname 函 数 获得 主机 名 并 构造 一 个 包含 主机 名 和 进程 ID 
的 输出 行 。 


发 送 数据 报 ， 接 着 去 睡眠 
12-15 发送 一 个 数据 报 后 调用 sleep 有 睡眠 5 秒 钟 。 


图 21-19 给 出 了 我 们 的 recv_all 画 数 ， 它 是 一 个 无 限 的 接收 循 
环 。 


moastlrecy.c 


1 include "ur.p. hi" 


2 void 

3 recv alliirt recvfd, socklen t salen) 

- 

S int n; 

6 char lins [MAXLINE+1] ; 

" sccklen t. ler; 

8 struct sockacdr *safrom; 

9 safrom = Melloc(salen) ; 

10 fcr ( 2 3 ) ( 

11 ler = salen; 

12 n = Recvfrcm(recvfd, lire, MAXLINE, C. safrom, &len): 
13 lire[n] - J; /* null terninata */ 


14 printf(*£rcn $3: $3", Socx ntop(safrzom, len), line); 


om 


图 21-19 ”接收 到 达 所 加 入 组 的 所 有 多 播 数据 报 
分 配套 接 字 地 址 结构 


9 分 配 一 个 套 接 子 地 址 结构 以 存放 每 次 调用 recvfrom 返 回 的 发 
送 进 程 的 协议 地 址 。 


读 入 并 输出 数据 报 


10-15 每 一 个 数据 报 由 recvfrom 读 入 ， 以 空 字 符 结尾 后 显示 
输出 。 


577~ 
578 


运行 示例 
我 们 在 freebsd4 和 macosx 这 2 个 系统 上 运行 本 程序 ， 看 到 每 个 系统 
都 接收 了 由 另 一 个 系统 发 送 的 分 组 。 


freebsd4 % sendrecv 239.255.1.2 8888 

from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 


macosx % sendrecv 239.255.1.2 8888 


from 172.24.37.94:1215: 
from 172.24.37.94:1215: 
from 172.24.37.94:1215: 
from 172.24.37.94:1215: 


freebsd4, 
freebsd4, 
freebsd4, 
freebsd4, 


55372 
55372 
55372 
55372 


21.11 SNTP: 简单 网 络 时 间 协 议 


网 络 时 间 协 议 NTP 是 一 个 用 于 路 广域网 或 局 域 网 同步 时 钟 的 复杂 
协议 ， 往 往 能 够 达到 毫秒 级 的 精度 。RFC 1305 [Mills 1992] 详细 叙述 
了 这 个 协议 ，RFC 2030 [Mills 1996] 则 叙述 了 NTP 的 一 个 简化 版 本 
SNTP， 用 于 那些 不 需要 完整 的 NTP 实 现 之 复杂 性 的 主机 。 通 常 的 做 法 
是 : 让 局 域 网 内 的 少数 几 个 主机 路 因特网 与 其 他 NTP 主 机 同步 时 钟 ， 
然后 由 这 些 主机 在 局 域 网 内 使 用 广播 或 多 播 重 新 发 布 时 间 。 


我 们 在 本 节 开 发 一 个 SNTP 客 户 程序 ， 它 在 与 本 地 主机 直接 连接 的 
所 有 网 络 上 上 听取 NTP 广 播 或 多 播 分 组 ， 接 着 输出 各 个 NTP 分 组 与 本 地 
e 我 们 并 不 试图 修正 当前 时 间 ， 因 为 那么 做 需要 超 
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20 所 示 的 ntp.h 文 件 包含 关于 NTP 分 组 格式 的 一 些 基 本 定 


sapo. hy 


1 #deline JAN 1970 222838880CUL /*^ 1970 - 1900 in seconds */ 
2 struct 1 fixedpr | /* E4-bít fixed-point »/ 

3  wuinti2 t int part; 

E uirt32 t fracticn; 

5 k 

6 czruct o tixedpt | /* 22-bit fixed-point */ 


uirtl6 t int part: 
a uirt16 t fracticn; 


9 

10 scruct ntpdata | /* NTE Leader */ 
11 u_char status; 

lz u char Etratum; 

13 u_char opcll; 

14 int precision:83; 


15 struct s fixednt distance; 
16 otruct c fixedot  dicperocion: 
了  wirt22 t refid; 

18 struct 1 fixedot  reftime; 
19 struct 1 fixedot crg; 

20 struct l fixedpt rec; 

21 struct 1 fixedot  xnt; 


22 ]; 

23 #define VERSION MASK Ox3E 
24 fderzine MOLE MNSK 0x07 
25 #deline MOCE CLISNT a 
26 füefine MOCE SERVER 4 


27 #definc MOCE BROADCAST 5 
ID 


图 21-20 ntp .h 头 文件 : NTP 分 组 格式 与 定义 


2-22 1 fixedpt 定 义 NTP 用 于 时 间 惟 的 64 位 定点 值 ， 
s_fixedpt 定 义 NTP 所 用 的 32 位 定点 值 。ntpdata 结 构 是 48 字 节 的 
NTP 数 据 报 格式 。 


21-2124 H Smaink 2X e 


sre a c 


4 


"soe PITHY 5^» wu 


= p 


includie "sip." 
in 
nain!in- argc. char **arav! 
int sockfd; 
caar buf [VAXLINZ]: 
ssize t n: 
sccklern t saler, isn; 
struct ifi info tifi; 
stracz sockaddr *ncastsa, *wild, “from; 


str.e:- timeva’ Ow; 


it (argc I= 3; 
err_guit ("usage: ssntp «IFaddress»"!; 


suckfd = Udp_clieotiaryv[1), "nlp", (void ^*^) Surastsa, asaler! ; 
wild = Malloc (calen); 
mencpy (wild. measta, calen); /* copy fanily and port */ 


scck_set_wilc{wild, salen); 
Bindisockfd. wild, salent; /* bind wildeard */ 


#itdet MCAST 
/* obtain interface list and process esch cne */ 
fcr (ifi = Get if: infaimrastsa-»sa family, 1); ifi != NULL; 
ifi = ifi-»ifi next) ' 
it [ifi »iEi flaágo & IPE MU-TICAST) ( 
Mcast_join(sockfd, mcascsa, salen, -fi-»ifi name. 0); 
printf ("joined ts on tsn", 
Sccx_ntop(meastea, salen}, ifi-».fi name); 
} 
1 
i 
fandit 
from = Malloc (salen); 
for ( £2 À ( 
ler - salen; 
mn = Recv£ren(scockfd, cuf, sizeofibuz), 0, Excm, cler; 
Gettimeofday(&now, NULL); 
sntp pro-í-uf, n, &now;; 
1 
i 


Ssvdp/nrain. c 


图 21-21 main 函数 


获得 多 播 IP 地 址 


12-14 用户 执行 本 程序 时 必须 作为 命令 行 参数 指定 要 加 入 的 多 


播 地 址 。 对 于 IPv4， 这 将 是 224.0.1.1 或 域名 ntp ,mcast ,net。 对 于 
IPv6， 这 将 是 网 点 局 部 范围 内 NTP 的 ff05: :101。 我 们 的 
udp_client 函 数 为 一 个 正确 类 型 (IPv4 或 IPv6) 的 套 接 字 地 址 结构 
分 配 空 间 ， 并 在 该 结构 中 存放 多 播 地 址 和 端口 。 如 果 是 在 不 支持 多 播 
的 主机 上 运行 本 程序 ， 那 么 可 以 随意 指定 一 个 IP 地 址 ， 因 为 本 程序 仅 


仅 使 用 取 自 该 结构 的 地 址 族 和 端口 号 信息 。 注 意 udp_client 并 不 把 
地 址 捆绑 到 套 接 字 上 ， 它 只 是 创建 套 接 字 并 填写 套 接 字 地 址 结构 。 


581 
把 通 配 地 址 捆绑 到 套 接 字 


15-18 为 男 一 个 套 接 字 地 址 结构 分 配 空间 ， 并 把 由 
udp_client 填 写 的 结构 复制 填写 到 其 中 ， 从 而 设置 该 结构 的 地 址 族 
和 端口 字段 。 接 着 调用 我 们 的 sock_set_wil1d 函 数 设置 该 结构 的 IP 
地 址 字段 为 通 配 地 址 ， 然 后 调用 bind。 


获得 接口 列表 


20-22 ”我们 的 get_ifi_info 画 数 返 回 所 有 接口 和 地 址 的 信 
。 我 们 查询 的 地 址 族 取 自 以 udp_client 基 于 命令 行 参 数 填写 的 套 
A rie 


加 入 多 播 组 


23-27 调用 我 们 的 mcast_join 函 数 在 每 个 具备 多 播 能 力 的 接 
口上 加 入 由 命令 行 参数 指定 的 多 播 组 。 所 有 这 些 加 入 操作 都 通过 本 程 
序 使 用 的 单个 套 接 字 执行 。 我 们 以 前 提 到 过 ， 通 常 每 个 套 接 字 都 有 一 
个 IP_MAX_MEMBERSHIPS (其 值 一 向 为 20) 次 加 入 操作 的 限制 ， 不 
过 拥有 那么 多 接口 的 多 宿主 机 相当 少见 


读 入 并 处 理 所 有 NTP 分 组 


30-36 再 分 配 一 个 套 接 字 地 址 结构 的 空间 以 存放 由 recvfrom 
返回 的 地 址 。 程 序 接着 进入 一 个 无 限 循 环 ， 先 读 入 本 主机 收 到 的 所 有 
NTP 分 组 ， 再 调用 我 们 的 sntp_proc 画 数 〈 稍 后 讲解 ) 处 理 每 个 分 
组 。 BRISA Bie EAER ANE, 而 且 已 经 在 所 有 具备 多 播 能 
力 的 接口 上 加 入 了 给 定 多 播 组 ， 因 此 本 套 接 字 | 总 该 接收 本 主机 收 到 的 
任何 单 播 、 广 播 或 多 播 NTP 分 组 。 在 调用 sntp_proc 前 我 们 调用 
gettimeofday 取 得 当前 时 间 ， 因 为 sntp_proc 需 计算 包含 在 NTP 分 
组 中 的 时 间 和 当前 时 间 之 差 。 


图 21-22 给 出 的 sntp_proc 画 数 处 理 真 正 的 NTP 分 组 。 


1 @incluie "arto. t 


2 void 


4 

5 int version, mute; 

6 uint32 t nsec, useri; 

7 dcublc uscct; 

8 struct timeval diff, 

9 struct nt(xlaba *nbp; 

10 if (n < issize t)sizeofistruct nepdata)) [ 

1l printz('Mnzacket too small: td bytee\n", n}; 

12 return; 

13 

14 ntp = (struct ntcdata *) buf: 

15 vorsicn = {Ntp »status & VERSION MAZKI! >> 3: 

16 mods =- ntp-»stetus & MODZ MASK. 

17 pr-ntfi'Mnv&c, moda td, strat $3, ", version, mode, ntr-*stratum); 
18 if (mode == MOVE CLIENT) { 

19 print=("*client\n"); 
20 reluri; 
4i 
22 nsec = ntohl (ntp->nmt,inz part) - JAN 1270; 
<3 useci = nzohl(rtg--xrt.frection) /* 22-bit integer fracticn */ 
24 usecf = useci; /* integer fraction -» double */ 
25 use^f /= à2949E7296.3; /* divite by 2*»*32 -> [0, 1.2] v/ 
z6 usesi = uccet * 1000200.2; /* tracticn -> parto per million */ 
27 diff.zv sec = nowpbr-»tv sec - nsec; 

ZR if ( (difr Lv usec m neawpl '-»Lbv usec - wei) e C) i 
23 diff.tv usec += 10000Cc0; 

30 diff.tv sec--, 

al ] 

22 usevi = (di^f Lv sec è 1000000) + diff, tv usec; /* di^f in nücrowec */ 
33 printf!'clock difference - 3d usec\n*, useci) 

34 | 


验证 分 组 的 有 效 性 


图 21-22 sntp procEÉNZ(: 处 理 SNTP 分 组 


SHS _proc.c 


snp. proce 


10-21 肯 先 检查 分 组 的 大 小 ， 接 着 输出 版 本 、 模 式 和 服务 右 层 


次 (server stratum) 


客户 请 求 而 不 是 一 个 服务 器 应 答 ，， 
从 NTP 分 组 获取 发 送 时 间 


o 如果 模式 为 MODE_CLIENT， 那 么 本 分 组 是 一 


于 是 我 们 忽略 它 。 


22-33 ”NTP 分 组 中 我 们 感 兴 趣 的 字段 是 表示 发 送 时间 鹤 的 
xmt ， 它 是 服务 器 发 送 本 分 组 时 刻 的 64 位 定点 时 间 。 由 于 NTP 时 间 鹤 


M19007 FF ART PRL, TT Unix TR] 19704E F8 VERG, ETT E 
H 先 从 xmt 的 整数 部 分 中 减 去 JAN_1970 (190077197035 704E RJ b 


数 ) 。 


xmt 的 小 数 部 分 是 一 个 32 位 无 符号 整数 ， 其 值 介 于 0 到 4294967295 
ZE 〈 含 边界 值 ) 。 我 们 把 它 从 32 位 整数 (useci) 复制 到 一 个 双 精 
度 浮 点 变量 (usecf) ， 再 除 以 4294967296 (2?) 。 结 果 为 大 于 等 于 
0.0， 小 于 1.0。 我 们 对 它 乘 以 1000000 (1 秒 钟 的 微 秒 数 ) ， 并 把 结果 作 
为 一 个 32 位 无 符号 整数 存放 在 变量 useci 中 。 这 是 介 于 0~-999999 的 微 
秒 数 〈 见 习题 21.5) 。 我 们 转换 成 微 秒 数 是 因为 由 gettimeofday 返 
回 的 Unix 时 间 戳 包含 两 个 整数 : 从 UTC 时 间 以 来 的 秒 数 以 及 微 秒 数 。 
我 们 然后 计算 并 显示 主机 的 当前 时 间 与 NTP 服 务 器 当前 时 间 之 间 以 微 
秒 为 单位 的 时 间 差 。 
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本 程序 没有 考虑 服务 器 和 客户 之 间 的 网 络 延 民 。 然 而 我 们 假设 在 
局 域 网 内 NTP 分 组 通常 作为 广播 或 多 播 数 据 报 接收 ， 这 种 情况 下 网 络 
延迟 应 该 只 有 几 曼 秒 。 
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我 们 在 主机 macosx 上 运行 本 程序 ， 而 运行 在 主机 freebsd4 上 的 
ee eee SiO 所 在 的 以 太 网 ， 于 是 得 到 
0 下 输出 : 


macosx # ssntp 224.0.1.1 
joined 224.0.1.1.123 on 100 
joined 224.0.1.1.123 on en1 


mode 5, start 3, clock difference 661 usec 

mode start clock difference -1789 usec 
mode start clock difference -2945 usec 
mode start clock difference -3689 usec 
mode start clock difference -5425 usec 


mode start clock difference -8520 usec 


我 们 先 终止 运行 在 本 主机 上 的 正常 的 NTP 服 务 器 再 运行 本 程序 ， 
这 样 当 本 程序 启动 时 本 主机 的 时 间 非 常 接近 于 NTP 服 务 器 主机 的 时 
间 。 我 们 看 到 本 主机 在 384 秒 钟 内 启 余 9181 微 秒 ， 即 每 24 小 时 约 差 2 


秒 。 


21.12. “小结 


多 播 应 用 进程 一 开始 融通 过 设置 父 接 字 选 项 请 求 加 入 赋予 它 的 多 
播 组 。 该 请 求 告 知 IP 层 加 入 给 定 组 ，IP 层 再 告知 数据 链 路 层 接收 发 往 
相应 硬件 层 多 播 地 址 的 多 播 巾 。 多 播 利用 多 数 毛 口 卡 部 提 供 的 人 硬件 过 
滤 减 少 非 期 望 分 组 的 接收 ， 而 且 过 滤 质 量 越 好 非 期 望 分 组 接收 量 也 越 
少 。 这 种 人 硬件 过 滤 的 运用 还 降低 了 不 参与 多 播 应 用 系统 的 其 他 主机 上 
HITT ° 

T p ERU fS 3s Hot 2 FARE) AIER H ni 41 Ze Tat I ° E 
ERES] EP E EH SR UR t ZB, HOU EAE 
些 “ 孤 岛 " 上 可 用 。 这 些 孤 岛 联 接 起 来 构成 所 谓 的 IP 多 播 基 础 设施 。 
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9 个 套 接 字 选 项 提供 了 文 持 多 播 的 API: 


在 一 个 接口 上 加 入 一 个 不 限 源 的 多 播 组 ; 

离开 一 个 不 限 源 的 多 播 组 ，; 

阻塞 接收 从 一 个 源 到 一 个 已 加 入 多 播 组 的 数据 报 ， 
开通 一 个 被 阻塞 的 源 ; 

在 一 个 接口 上 加 入 一 个 特定 于 源 的 多 播 组 ，; 
离开 一 个 特定 于 源 的 多 播 组 ; 

设置 外 出 多 播 数 据 报 的 默认 接口 ; 

设置 外 出 多 播 数 据 报 的 TIL 或 跳 限 ; 

开局 或 禁止 多 播 数据 报 的 回馈 。 


前 6 个 用 于 接收 ， 后 3 个 用 于 发 送 。 这 些 套 接 字 选项 的 IPv4 和 IPv6 
版 本 之 间 存 在 过 多 的 差异 ， 使 得 使 用 多 播 的 协议 无 关 代 码 因 插 入 大 量 
的 #ifdef 伪 代码 而 迅速 变 得 竣 乱 不 堪 。 我 们 开发 了 12 个 均 以 mcast_- 
E end 
YF o 


习题 


21.1 构造 图 20-9 中 的 程序 ， 在 命令 行 上 指定 IP 地 址 224.0.0.1 执 行 
它 ， 会 发 生 什么 ? 


212 接着 上 个 习题 ， 把 图 20-9 中 的 程序 改 为 捆绑 IP 地 址 224.0.0.1 
和 端口 0 到 它 的 套 接 字 ， 然 后 执行 它 。 你 的 系统 允许 捆绑 多 播 地 址 到 套 
接 字 吗 ? 如 果 你 有 诸如 tcpdump 等 工具 可 用 ， 那 就 用 它们 观察 网 络 上 
的 分 组 。 你 发 送 的 数据 报 的 源 了 地址 是 什么 ? 


21.3 ”获悉 子 网 上 哪些 主机 具备 多 播 能 力 的 一 个 方法 是 ping 所 有 
主机 组 224.0.0.1， 试 一 下 。 


21.4 判定 你 的 主机 是 否 连 接 到 卫 多 播 基础 设施 的 一 个 方法 是 执 
行 21.9 世 中 的 程序 ， 等 竺 数 分 钟 ， 看 是 否 有 任何 会 话 声明 出 现 。 试 一 
下 看 你 是 否 收 到 任何 声明 。 


21.5 当 NTP 时 间 惟 的 小 数 部 分 是 1073741824 〈 即 1/4x232) Hj, 
。 对 最 大 可 能 的 整数 小 数 部 分 (232-1) Æ 
3T 338 o 


21.6 ”修改 mcast_set_if 的 实现 中 对 于 IPv4 版 本 的 操作 ， 让 程 
序 记 住 已 经 获取 其 卫 地 址 的 每 个 接口 的 名 字 ， 以 免 为 这 些 接口 再 次 调 
用 ioct1。 
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@ 原 书 中 给 出 的 IPv4 的 所 有 多 播 地 址 为 224.0.0.0/8， 但 译 者 认为 应 该 是 
224.0.0.0/4 〈 见 21.2 节 ) 。224.0.0.0/8 仅 仅 是 其 中 的 链 路 局 部 多 播 地 址 
的 一 个 超 集 。 译 者 注 


第 22 章 ”高 级 UDP 套 接 字 编程 


22.1 概述 


本 章 汇集 了 影响 应 用 程序 使 用 UDP 套 接 字 的 多 个 论题 。 首 先是 确 
定 某 个 外 来 UDP 数据 报 的 目的 地 址 及 其 接收 接口 (也 就 是 到 达 接 
O) ， 因 为 绑 定 某 个 UDP 冰 口 和 通 配 地 址 的 一 个 套 接 字 能 够 在 任何 接 
口上 接收 单 播 、 广 播 和 多 播 数据 报 。 


TCP 征 一 个 字 节 流 协议 ， 又 使 用 请 动 窗口 ， 因 此 没有 请 如 记录 边 
界 或 发 送 者 数据 发 送 能 力 超过 接收 者 数据 接收 能 力 之 类 的 事情 。 然 而 
对 于 UDP 而 言 ， 每 个 输入 操作 对 应 一 个 UDP 数据 报 (一 个 记录 ) ， 
此 当 收 取 的 数据 报 大 于 应 用 进程 的 输入 绥 冲 区 时 就 有 如 何 处 理 的 问 


题 。 


UDP 是 不 可 靠 的 协议 ， 不 过 有 些 应 用 程序 确实 有 理由 使 用 UDP 而 
不 使 用 TCP 。 我 们 将 讨论 影响 何 时 用 UDP 代替 TCP 的 若干 因素 。 在 这 
些 UDP 应 用 程序 中 ， 我 们 必须 包含 一 些 特性 以 弥补 UDP 的 不 可 靠 性 ; 
超时 和 重 传 〈 用 于 处 理 丢 失 的 数据 报 ) 、 序 列 号 (用 于 匹配 应 答 与 请 
R) 。 我 们 将 开发 一 组 可 在 UDP 应 用 程序 中 调用 的 画 数 以 处 理 这 些 细 
qe 


如 果实 现 不 支持 IP_RECVDSTADDR 套 接 字 选项 ， 那 么 确定 外 来 
UDP 数据 报 目的 也 地 址 的 方法 之 一 是 捆绑 所 有 的 接口 地 址 并 使 用 


select ° 


多 数 UDP 服 务 右 程序 是 迭代 运行 的 ， 不 过 有 些 应 用 系统 在 客户 和 
服务 器 之 间 交 换 多 个 UDP 数 据 报 ， 因 而 需要 某 种 形式 的 并 发 。TFTP 是 
一 个 常见 的 例子 ， 我 们 将 讨论 有 inetd 参 与 和 无 jnetd 参 与 这 两 种 情 
况 下 如 何 做 到 这 些 。 


587 


最 后 的 论题 定 可 作为 每 个 IPv6 数 据 报 的 辅助 数据 指定 的 特定 于 分 
组 的 信息 : 源 IP 地 址 、 发 送 接口 、 外 出 跳 限 和 下 一 跳 地 址 。 可 随 每 个 
人 : 目的 IP 地 址 、 接 收 接口 和 接收 跳 


22.2 ”接收 标志 、 目 的 IP 地 址 和 接口 索引 


历史 上 sendmsg 和 recvmsg 一 直 只 用 于 通过 Unix 域 套 接 字 传 递 描 
述 符 (15.78) ， 而 且 甚至 这 种 用 途 也 不 多 见 。 然 而 由 于 以 下 两 个 原 
因 ， 这 两 个 函数 的 使 用 情况 正在 不 断 改观 。 


(1) 随 4.3BSD Reno 加 到 msghdr 结 构 的 msg_f1lags 成 员 返 回 标志 
给 应 用 进程 。 我 们 已 在 图 14-7 中 汇总 了 这 些 标志 。 


(2) 辅助 数据 正 被 用 于 在 应 用 进程 和 内 核 之 间 传 递 越 来 越 多 的 信 
县 。 我 们 将 在 第 27 章 看 到 IPv6 延 续 了 这 种 趋势 。 


作为 recvmsg 的 一 个 例子 ， 我 们 将 编写 一 个 名 为 
recvfrom_ flags 的 函数 ， 它 类 似 recvfrom 不 过 还 返回 : 


。 所 返回 的 msg_flags 值 ; 
。 所 收取 数据 报 的 目的 地 址 (通过 IP_RECVDSTADDR 套 接 字 选项 获 


AY); 
° 所 收 到 数据 报 接收 接口 的 家 引 (通过 IP_RECVIF 套 接 字 选项 获 


为 了 返回 最 后 两 项 ， 我 们 在 unp , h 头 文件 中 定义 如 下 结构 。 


struct unp_in_pktinfo { 
struct in_addr ipi_addr; /* destination IPv4 address */ 


int ipi_ifindex; /* received interface index */ 


我 们 特意 选取 该 结构 及 其 成 员 的 名 字 ， 使 得 它们 类 似 于 IPv6 情 形 
为 IPv6 套 接 字 返回 同样 两 项 的 in6_pktinfo 结 构 (22.819) 。 我 们 的 
recvfrom_flags 函 数 将 取 指 向 某 个 jn_pktinfo 结 构 的 一 个 指针 作 
NED 如 果 该 指针 不 为 空 ， 本 函数 就 通过 该 指针 所 指 结构 返回 信 


有 关 这 个 结构 的 一 个 设计 问题 是 : 如 果 IP_RECVDSTADDR 信 息 不 
可 得 (也 就 是 说 实现 不 支持 这 个 套 接 字 选 项 ) ， 那 么 返回 什么 。 接 口 


索引 容易 处 理 ， 因 为 值 0 可 以 指示 索引 不 可 知 。 然 而 卫 地 址 的 所 有 32 位 

值 都 是 有 效 的 。 我 们 选择 这 么 做 : 当 实 际 值 不 可 得 时 返回 一 个 全 0 值 
(.0) 作为 目的 地 址 。 尺 管 它 是 一 个 有 效 IP 地 址 ， 却 从 不 允许 作为 日 

的 IP 地 址 (RFC 1122 [Braden 1989] ) ; 它 只 有 作为 源 IP 地 址 才 有 

而 且 必 须 是 在 主机 正在 引导 ， 从 而 还 不 知道 自己 的 IP 地 址 的 时 

医 o 
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不 笠 的 是 ， 源 目 Berkeley 的 内 核 接 受 目 的 地 址 为 0.0.0.0 的 也 数据 报 
\TCPv2 第 218~219 页 ) 。 这 些 数据 报 是 由 源 自 4.2BSD 的 内 核 产生 的 
作废 了 的 广播 数据 报 。 


我 们 在 图 22-1 中 给 出 recvfrom_flags 函 数 的 前 半 部 分 。 该 函数 
意 在 用 于 UDP 套 接 字 。 


odviolrecyfromflags.c 
1 finclude "unp.h" — 


2 #include <cye/param. h» /* @LIGN Tacro tor CMSZ2 NXTHCR() macro */ 
2 ssize t 

4 recvtrom_flags(int fd, void *ptr, size t nbytes, int *ilagsp. 

$ S^ tga, cocklen t *esalenptr, ctruct wp in pktinfo *ckzcp) 
6 | 

a struct meqhdr req; 

Li struct iovsc icv[1]; 

E ssize t n: 

10 Bifdef HAVE MSGHDR MSG CONTRCL 

11 struct cusghdr  *cmp-r: 

12 union ( 

15 struct cms ghd- cm; 

14 char control [CMSS_SPACE i siseof (struct in_addr!) + 

15 CNSC_SPACE |sizecot (struct urp -r sktinto))J; 
16 ] control un; 

17 msg.msc control = control un.control; 

18 msg.msc coztrollen = sizeof(control_un.contrsl), 

19 masg.msc flags = 0; 

20 #else 

21 bzcro(&mog, sizcot (msg) ); /* make certain msg accrightalen = 0 */ 
22 fenditf 

23 msg.msc rave - sa; 

24 msg.msc ramelen = *salenptr; 

25 iov[O].iov base = ptr; 

26 iov[0].iov _cn = n5ytco; 


meg.mec iov = iov; 


n 


28 msg.msc iov.en - 1; 

29 if ( (r = reevwsqifd, &mocz, ~flaqspt) < C) 

30 return (n) ; 

31 *salenptr = rsg.wsg namelzn; /* pass back -ssults */ 

32 if (pktp) 

35 bzercipkzp, siscof [struct unp in pktinfo)); /* 0.0.0.0, i/£ = 0 */ 


edviofrecifrompflags.c 


图 22-1 recvfrom flags:NZi: 调用 recvmsg 
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包含 文件 


1~2” 宏 CMSG_NXTHDR 的 使 用 需要 包含 头 文件 
<sys/param. h> ° 


图 数 参数 


3-5 ”本 函数 的 参数 类 似 recvfrom， 不 过 第 四 个 参数 现在 是 指 
向 某 个 整数 标志 的 一 个 指针 (我 们 可 由 此 返回 由 recvmsg 返 回 的 标 
志 ) ， 第 七 个 参数 则 是 新 的 ， 它 是 指向 某 个 jn_pktinfo 结 构 的 一 个 
站 秆 ， 本 芳 数 由 此 返回 所 接收 数据 报 的 目的 IPv4 地 址 和 它 的 接收 接口 


PR 


实现 差异 


10-22 在 处 理 msghdr 结 构 和 各 种 MSG_xxx 利 值 时 ， 我 们 会 遇 到 
许多 不 同 实现 的 差异 。 我 们 处 理 这 些 差异 的 手段 是 使 用 C 的 条 件 包含 
特性 (#ifdef) 。 如 果 本 实现 支持 msg_control 成 员 ， 那 就 分 配 空 
间 以 便 存 放 将 由 套 接 字 选项 ITP_RECVDSTADDR 和 IP_RECVIF 返 回 的 
值 ， 并 且 初 始 化 适当 的 成 员 o 
填写 msghdr 结 构 并 调用 recvmsg 

23-33 填写 一 个 msghdr 结 构 并 调用 recvmsg。msg_namelen 
和 msg_f1lags 这 两 个 成 员 的 值 必须 传递 回调 用 者 ; 它们 是 值 一 结果 人 参 
数 。 我 们 还 初始 化 调用 者 的 in_pktinfo 结 构 ， 置 地址 为 .0， 置 接 
口 索 引 为 0。 


图 22-2 给 出 了 本 画 数 的 后 半 部 分 。 


edvio/recyfronflags.c 


24 4ifadef HAVE_MSGHDR_MSG_CONTRSL 


35 *t.adop = Or /* pass back results */ 
i6 return in); 

37 #alse 

38 *t.3qcp = moc ,mo tlaqo; /* pass back resulto */ 
39 if (msg.msg controllan < sizeof(scrucc cmsghdr) | 

40 imeg.meg flags & MSG_CTRONC) || pktp == NULL) 

a+ return (mn) ; 

42 fcr ({cmptr ~ CMSG FISSTHDOR(&mg&g); cmpzr !- NULL; 

44 cmpt- = CMSG NXTHDR(Smesg, cmdtr)) [ 

44 #ifcdef iP RECUDSTADDE 

45 if (cmptr-scmsg level == IPFPEOTO IP && 

46 cmplr-scrsy ype == 7P SECVESTADOR) { 

a7 memcpy (épktp-sipi addr, CMSG DATR(cmptr), 

a8 sizeof istruct in a3dr]!; 

49 cord EU 

50 j 

5L #endif 

52 &ifüel TP_RRCVTF 

53 if (cmptr-»cmsg level == IPFROTO IP && cwp-r-2amsg type == IP RECVIF)[ 
54 struct scckáđdz_ dl *sdl 

Eï sdl s (stroke sockaddr 0) +) (NSR DATA (emp r); 
56 pktp-»ipi ifindex ~ sil-»sdl index; 

67 cortinuc; 

58 ) 

59 #andif 

EU err quit ("unknown ancillary data, ler = &d, level = $d, typs = td", 
6i emptr-scmsg len, cmptr-»cmsg level, crp-r-»coms3 tvpe); 
62 } 

£3 rsLturain); 

€4 #endif /* HAVE_MSCHDR_NSG CONTROL */ 

€5 } 


odviovrecrfromflags.c 


图 22-2 recvfrom flagsENZk: 返回 标志 和 目的 地 址 


34~37 如 朱 丰 实现 不 文 持 msg_ control 成 员 ， 那 就 把 得 返回 
标志 设置 为 0 并 返回 。 本 函数 其 余部 分 处 理 msg_control 信 息 。 


如 果 没 有 控制 信息 则 返回 


38-41 返回 msg_flags 成 员 的 值 ， 然 后 如 果 满 足以 下 条 件 之 一 
就 将 其 返回 到 调用 者 : (a) 没有 控制 信息 ， (b) 控制 信息 被 截断 ， 
(c) 调用 者 不 想 返 回 一 l'in pktinfo£Zif e 


处 理 辅助 数据 


42-43 ”使 用 宏 CMSG_FIRSTHDR 和 CMSG_NXTHDR 处 理 任意 数目 
的 辅助 数据 对 象 。 


处 理 IP_RECVDSTADDR 


44-51 如 果 目 的 了 地址 作为 控制 信息 返回 〈 图 14-9) ， 那 就 把 
它 返 回 给 调用 者 。 


处 理 IP_RECVIF 


52-59 如果 接 收 接口 的 索引 作为 控制 信息 返回 ， 那 就 把 它 返回 
给 调用 者 。 图 22-3 展 示 了 由 recvmsg 返 回 的 本 辅助 数据 对 象 的 内 容 。 


cmsghdr{ } 


SE bk: CE n 
»3 ; = TORE 


20 
IPPROTO IP 
IP_RECVIF 
8, AF_LINK 


r 


sockaddr_dl{} 


图 22-3 ”IP_RECVIF 返 回 的 辅助 数据 对 象 
591 
回顾 图 18-1 中 的 数据 链 路 套 接 字 地 址 结构 。 在 图 22-3 所 示 的 辅助 
数据 对 象 中 返回 的 数据 正 是 这 种 结构 之 一 ， 不 过 其 中 3 个 长 度 成 员 (名 
字 长 度 、 地 址 长 度 和 选择 符 长 度 ) 都 是 0。 因 此 这 些 长 度 成 员 不 必 后 跟 


任何 数据 ， 整 个 结构 的 长 度 应 该 是 8 字 ， 而 不 是 锋 18-1 所 示 的 20 字 
节 。 我 们 返回 的 信息 是 接口 索引 。 


例子 : 输出 目的 IP 地 址 和 数据 报 截断 标志 


为 了 测试 recvfrom_f1lags 函 数 ， 我 们 把 dg_echo 画 数 (图 8- 
4) 改 为 调用 recvfrom_flags 而 不 是 recvfrom。 图 22-4 给 出 了 这 个 
新 版 本 的 dg_echo 画 数 。 


on me wh 


m 
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m 
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44 


cudvioelaechnrade c 
#inzlude *unpifi n" 


fundef MAXLINE 
fdefine MAXLINE 20 /* to see datacram truncation */ 


void 
dg_eche(int secktd, SA *»cliaddr, socklen t clilen) 
int tlags; 
cnrst in- on s 1; 
sockien = len; 
ssize tn; 
char mesg[M^XxLINE], str[INETé ADDRSTRLEK), ifnare [IFNAMS=Z) ; 
struct in_addr in zero 
struct urp in pktinfo cktinfo, 


#itdcet IP RECVDSTADDR 
it (setsockopt iseckta, TFPRON) TP, T? RECVDETADOPR, &on, sinention)! « ^! 
arr “et i" setsockept ot T? RECVDETADDR"| ; 
endir 
#ifdel IP RECVIF 
if (wetsockoptíscckfd, IPPROTO IP, IP RECVIS, &ou, sizeof(cu)) « 0j 
err reti'seteockopc of I2 RECVIE"!, 
fendif 
D23ero;&ir zero, cizeof(ctruct in addr!!; /* all 9 IP address */ 


for f; 3:1 { 
lan = clilen; 
flags = f; 
n = Recvfrom f'^gs(scckfC, mesc, MAXLTNR, &flags, 
peliecds, &len. &pbkLinfo); 
preaali("td-byte dalagecm fion $5", n, Scck utcplpsliakh, 1«en)); 
if (remewm»(üpktinfo.lpi addr, èin zero, sizeo?(in zero}) !- 0) 
printfi', to to". Inez ntop(^F INET, &pktinfo.ipi addr, 
etr, cizeofictr])): 
if (pktinto.ipl. itindex > 0) 
prinrfi", re-v i/f = ła”, 
I* indextenaws(pktrahto.*pi itindex, itnaws!:; 
ifdef M33 TRUN^ 
if (Zlags & MSG TANC) 
pzintf(* (dategran truncateci"); 
fendi 
fifde= MSG CTRUNC 
if (flage & MSG_CTRUNC) 
rintf1" (control info truzcatcd)"!:; 
$cndit 
#ifde= M33 ECAST 
if (“lags & MSG 30MST) 
Printéi" (brosdcast)"!; 
feudil 
if MSG MCAST 
if (lage & MSG MCAST) 
printf" (multicast) "+: 
fendi? 
prints ("s\n"); 


Sendro(csosxfd, wecq, n, 6, peliaddr, len}; 


cuviodgechvudte co 


图 22-4 调用 recvfrom_flags 函 数 的 dg_echo 画 数 


修改 MAXLINE 


2-3 去掉 出 现在 unp , h 头 文件 中 已 有 的 MAXLINE 定 义 ， 把 它 重 
新 定义 为 20。 我 们 这 样 做 是 为 了 查看 当 收 到 一 个 比 我 们 传递 给 输入 画 
数 (本 例 中 是 recvmsg) 的 缓冲 区 更 大 的 UDP 数 据 报时 会 发 生 什 么 。 
设置 TP_RECVDSTADDR 和 IP_RECVIF 套 接 字 选项 


14-21 如 果 IP_RECVDSTADDR 套 接 字 选 项 有 定义 ， 那 就 开启 
它 。 同 样 地 如 果 IP_RECVIF 套 接 字 选项 有 定义 ， 那 就 开启 它 。 


读 入 数据 报 ， 输 出 源 IP 地 址 和 端口 号 

24-28 调用 recvfrom_flags 读 入 数据 报 。 调 用 sock_ntop 
[ene 源 IP 地 址 和 端口 号 转换 为 表达 格式 ， 再 显示 输 
输出 目的 IP 地 址 


29-31 ”如 果 返 回 的 IP 地 址 不 是 90， 那 就 调用 inet_ntop 把 它 转 
换 为 表达 格式 并 显示 。 
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输出 接收 接口 的 名 字 


32-34 ”如 果 返 回 的 接口 索引 不 是 0， 那 就 调用 
if_indextoname 获 取 接 口 名 字 并 显示 。 


测试 各 种 标志 


35-51 我 们 接着 男 外 测试 4 个 标志 ， 如 有 果 其 中 任何 一 个 是 打开 的 
BLE “ME ° 
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22.3 ”数据 报 截断 


在 源 自 BSD 的 系统 上 ， 当 到 达 的 一 个 UDP 数据 报 超过 应 用 进程 提 
供 的 缓冲 区 容量 时 ，recvmsg 在 其 nsghdr 结 构 (图 14-7) 的 
msg_flags 成 员 上 设置 MSG_TRUNC 标 志 。 所 有 支持 msghdr 结 构 及 其 
msg_flags 成 员 的 源 自 Berkeley 的 实现 都 提供 这 种 通知 。 


MSG_TRUNC 是 必须 从 内 核 返 回 到 进程 的 标志 之 一 。 我 们 已 在 14.3 
节 提 到 过 ， 画 数 recv 和 recvfrom 存 在 的 一 个 设计 问题 是 它们 的 flags 
2 le 因而 只 允许 从 进程 到 内 核 传 递 标志 ， 而 不 能 反方 问 
M PUE * 


不 幸 的 是 ， 并 非 所 有 实现 都 以 这 种 方式 处 理 超过 预期 长 度 的 UDP 
数据 报 。 这 里 存在 以 下 3 个 可 能 的 情形 。 


(1) 丢弃 超出 部 分 的 字 节 并 向 应 用 进程 返回 MSG_TRUNC 标 志 。 本 
处 理 方式 要 求 应 用 进程 调用 recvmsg 以 接收 这 个 标志 。 


(2) 丢弃 超出 部 分 的 字 节 但 不 告知 应 用 进程 这 个 事实 。 
(3) 保留 超出 部 分 的 字 节 并 在 同一 套 接 字 上 后 续 的 读 操作 中 返回 它 


FP 
FH 
fi 
POSIX 采 纳 第 一 种 处 理 行为 ， 丢弃 超出 部 分 的 字 节 并 设置 
MSG_TRUNC 标 志 。 早 期 的 SVR4 版 本 展现 的 是 第 三 种 类 型 的 行为 。 
既然 不 同 的 实现 在 处 理 超 过 应 用 进程 接收 缓冲 区 大 小 的 数据 报时 
存在 上 述 差 异 ， 检 测 本 问题 的 一 个 有 歼 方法 就 是 : 总 是 分 配 比 应 用 进 


程 预期 接收 的 最 大 数据 报 还 多 一 个 字 节 的 应 用 进程 缓 剖 区。 如 采 收 到 
长 度 等 于 该 缓冲 区 的 数据 报 ， 那 殴 认 定 它 是 一 个 过 长 数据 报 。 


22.4 (WRT RjUDPACETCP 


我 们 已 在 2.3 节 和 2.4 节 讲述 过 UDP 和 TCP 的 主要 区 别 。 既 然 TCP 是 
可 靠 的 而 UDP 却 不 是 ， 有 竺 回答 的 问题 就 是 : 何 时 我 们 应 该 用 UDP 代 
TCP? 为 什么 ? 我 们 首先 列举 UDP 的 优势 。 


。 正如 图 20-1 所 示 ，UDP 文 持 广 播 和 多 播 。 事 实 上 如 末 应 用 程序 使 
用 广播 或 多 播 ， 那 就 必须 使 用 UDP。 我 们 已 在 第 20 章 和 第 21 章 讨 
论 过 这 两 种 寻 址 模式 。 
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。 UDP 没有 连接 建立 和 拆除 。 相 对 于 图 2-5，UDP 只 需要 两 个 分 组 就 
能 交换 一 个 请 求 和 一 个 应 答 (假设 两 者 的 长 度 都 小 于 两 个 端 系 统 
之 间 的 最 小 MTU) 。TCP 却 需要 大 约 20 个 分 组 ， 这 里 假设 为 每 次 
请 求 一 应 答 交 换 建立 一 个 新 的 TCP 连 接 。 


获得 应 答 所 需 的 分 组 往返 次 数 在 这 种 分 组 数目 分 析 中 也 很 重要 。 
正如 TCPv3 附 录 人 A 所 述 ， 从 请 求 到 应 答 的 分 组 往返 次 数 在 延迟 超过 带 
宽 情 形 下 变 得 非常 重要 。 那 段 文 字 表明 ， 就 单个 UDP 请 求 一 应 答 交 换 
而 言 的 最 小 事务 处 理 时 间 (transaction time) 为 RTT+SPT， 其 中 RTT 表 
示 客 户 与 服务 器 之 间 的 往返 时 间 (round-trip time) ，SPT 则 表示 客户 
请 求 的 服务 器 处 理 时 间 (server processing time) 。 然 而 就 TCP 而 言 ， 
如 果 同 样 的 请 求 一 应 答 交 换 用 到 一 个 新 的 TCP 连 接 ， 那 么 最 小 事务 处 
理 时 间 将 是 2xRTT+SPT， 比 UDP 时 间 多 一 个 RTT。 


关于 第 二 点 我 们 应 该 清楚 : 如 果 单 个 TCP 连 接 用 于 多 个 请 求 一 应 
答 交 换 ， 那 么 连接 的 建立 和 拆除 开销 就 由 所 有 的 请 求 和 应 答 分 担 ， 这 
样 的 设计 通常 比 为 每 个 请 求 一 应 答 交 换 使 用 新 连接 要 好 。 尺 管 如 此 ， 
有 些 应 用 系统 还 是 为 每 个 请 求 一 应 答 交 换 使 用 一 个 新 的 TCP 连 接 (如 
较 早 版 本 的 HTTP) ， 而 有 些 应 用 系统 则 在 客户 和 服务 器 交换 一 个 请 求 
一 应 答 后 ， 可 能 数 小 时 或 数 天 不 再 通信 (如 DNS) 。 


我 们 接着 列 出 UDP 无 法 提供 的 TCP 特 性 ， 这 意味 着 如 果 这 些 特性 
对 于 具体 应 用 系统 是 必需 的 ， 那 么 其 应 用 程序 必须 目 行 提供 它们 。 需 
注意 的 是 ， 不 是 所 有 应 用 程序 都 需要 TCP 的 所 有 这 些 特性 。 举 例 来 


说 ， 对 于 实时 音频 应 用 程序 而 言 ， 如 果 接 收 进程 能 够 通过 插值 弥补 遗 
失 数 据 ， 那 么 丢失 的 分 节 也 许 不 必 重 传 。 同 样 ， 对 于 简单 的 请 求 一 应 
答 事 务 处 理 而 言 ， 如 采 两 端 事先 协 定 最 大 的 请 求 和 应 答 大 小 ， 那 么 也 
许 不 需要 窗口 式 流量 控制 。 


。 正面 确认 ， 丢 失 分 组 重 传 ， 重 复 分 组 检测 ， 给 被 网 络 打 乱 次 序 的 
分 组 排序 。TCP 确 认 所 有 数据 ， 以 便 检 测 出 丢失 的 分 组 。 这 些 特 
性 的 实现 要 求 每 个 TCP 数 据 分 节 都 包含 一 个 能 被 对 端 确 认 的 序列 
号 。 这 些 特 性 还 有 要求 TCP 为 每 个 连接 佑 算 重 传 超时 值 ， 该 值 应 随 
痢 两 个 端 系 统 之 间 分 组 流通 的 变化 持续 更 新 。 

窗口 式 流量 控制 。 接 收 并 TCP 告 知 发 送 喘 目 己 已 为 接收 数据 分 配 
了 多 大 的 缓冲 区 空间 ， 发 送 剖 不 能 发 送 超 过 这 个 大 小 的 数据 。 也 
忠 古 说 ， 发 送 吊 的 未 确认 数据 量 不 能 超过 接收 问 告 知 的 窗口 。 


995 
。 慢 局 动 和 拥塞 避免 。 这 是 由 发 送 问 实施 的 一 种 流量 控制 形式 ， 它 
通过 检测 当前 的 网 络 容 量 来 应 对 阵 发 的 拥 春 。 当 前 所 有 的 TCP 必 


须 文 持 这 两 个 特性 ， 而 且 我 们 根据 20 世 纪 80 年 代 后 期 这 些 算法 实 
现 之 前 的 经 验 知道 ， 那 些 面 临 拥塞 而 不 “后 退 ”(back off) 的 协议 
只 会 导致 拥塞 变 得 更 糟糕 (如 [Jacobson 1988] ) » 


作为 总 结 ， 我 们 可 以 陈述 如 下 建议 。 


对 于 广播 或 多 播 应 用 程序 必须 使 用 UDP。 任 何 形式 的 错误 控制 必 
须 加 到 客户 和 服务 絮 程 序 之 中 ， 不 过 应 用 系统 往往 是 在 可 以 接受 
一 定量 (假设 是 少量 ) 的 错误 的 前 提 下 (如 首 频 或 视频 的 分 组 丢 
A) 使 用 广播 和 多 播 。 要 求 可 靠 递送 的 多 播 应 用 系统 (如 多 播 文 
件 传 输 ) 确 非 没 有 ， 不 过 我 们 必须 衡量 使 用 多 播 的 性 能 收益 (发 
送 单个 分 组 到 N 个 目的 地 ， 对 比 跨 N 个 TCP 连 接 发 送 该 分 组 的 N 个 
ee 
FR’ [e] 

对 于 简单 的 请 求 一 应 答应 用 程序 可 以 使 用 UDP， 不 过 错误 检测 功 
能 必须 加 到 应 用 程序 内 部 。 错 误 检 测 至 少 涉及 确认 、 超 时 和 重 

传 。 流 量 控制 对 于 合理 大 小 的 请 求 和 应 答 往往 不 成 问题 。 我 们 将 
在 22.57 给 出 的 UDP 应 用 程序 中 提供 这 些 特性 的 一 个 例 和 于 。 这 里 
需要 考虑 的 因素 包括 客户 和 服务 器 通信 的 频 度 (可 否 在 相继 的 通 
信之 间 保 持 所 用 的 TCP 连 接 ? ) 以 及 所 交换 的 数据 量 《如 果 通 常 


i bom 那么 TCP 连 接 的 建立 和 拆除 开销 将 变 得 不 大 重 


对 于 海量 数据 传输 《如 文件 传输 ) 不 应 该 使 用 UDP。 因 为 这 么 做 
除了 上 一 点 要 求 的 特性 外 ， 还 要 求 把 窗口 式 流量 控制 、 拥 塞 避免 
和 慢 启 动 这 些 特性 也 加 到 应 用 程序 中 ， 意 味 着 我 们 是 在 应 用 程序 
中 再 造 TCP。 我 们 应 该 让 三 商 来 关注 更 好 的 TCP 性 能 ， 而 目 己 应 
该 致力 于 提升 应 用 程序 本 身 。 


这 些 规则 存在 例外 ， 尤 其 是 在 现 有 的 应 用 程序 中 。 举 例 来 说 ， 
TFTP 就 用 UDP 传送 海量 数据 。TFTP 选 用 UDP 的 原因 在 于 ， 在 系统 
举 引导 代码 中 使 用 UDP 比 使 用 TCP 易 于 实现 (如 TCPv2 中 使 用 UDP 的 C 
代码 约 为 800 行 ， 而 使 用 TCP 则 约 为 4500 行 ) ， 而 且 TFTP 只 用 于 在 局 
域 网 上 引导 系统 ， 而 不 是 跨 广 域 网 传送 海量 数据 。 不 过 这 样 一 来 就 要 
求 TFTP 自 含 用 于 确认 的 序列 号 字段 ， 并 具备 超时 和 重 传 能 力 。 
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NFS 是 这 些 规 则 的 另 一 个 例外 : 它 也 用 UDP 传送 海量 数据 (尽管 
有 人 可 能 声称 它 实 际 上 是 一 个 请 求 一 应 答应 用 系统 ， 不 过 使 用 较 大 的 
请 求 和 应 答 而 已 ) 。 这 样 的 选择 部 分 出 于 历史 原因 ， 因 为 在 20 世 纪 80 
年 代 中 期 设计 NFS 的 时 候 ，UDP 的 实现 要 比 TCP 的 快 ， 而 且 NFS 仅 仅 用 
于 局 域 网 ， 那 里 分 组 丢失 率 往 往 比 在 广域网 上 少 几 个 数量 级 。 然 而 随 
着 NFS 从 20 世 纪 90 年 代 早期 开始 被 用 于 路 广域网 范围 ， 并 且 TCP 的 实 
现在 海量 数据 传送 性 能 上 开始 超过 UDP 的 实现 ，NFS 第 3 版 被 设计 成 支 
持 TCP， 大 多 数 厂 商 现 已 改 为 同时 在 UDP 和 TCP 上 提供 NFS。 同 样 的 理 
由 (20 世纪 80 年 代 中 期 UDP 要 比 TCP 快 且 局 域 网 上 的 使 用 远 远 超过 广 
域 网 ) 导致 DCE 远 程 过 程 调用 (remote procedure call, RPC) 的 前 身 
软件 包 (Apollo NCS 软 件 包 ) 也 选择 UDP 而 不 是 TCP， 不 过 如 今 的 实 
现 同时 支持 UDP 和 TCP ° 


既然 如 今 民 好 的 TCP 实 现 能 够 充分 发 挥 网 络 的 市 宽容 量 ， 而 且 越 
来 越 少 的 应 用 系统 设计 人 员 愿 意 在 目 己 的 UDP 应 用 中 再 造 TCP， 这 些 
事实 可 能 诱 使 我 们 说 :， 相 比 TCP，UDP 的 用 途 在 递减 。 然 而 预期 中 下 
一 个 十 年 多 媒体 应 用 领域 的 增长 将 会 促成 UDP 使 用 的 增加 ， 因 为 多 媒 
体 通常 意味 着 需要 UDP 的 多 播 。 


22.55 ”给 UDP 应 用 增加 可 人 靠 性 


正如 上 一 节 所 提 ， 如 果 想 要 让 请 求 一 应 答 式 应 用 程序 使 用 UDP， 
那么 必须 在 客户 程序 中 增加 以 下 两 个 特性 。 


(D 超时 和 重 传 ， 用 于 处 理 丢 失 的 数据 报 。 
(2) 序列 号 ， 供 客户 验证 一 个 应 答 是 否 匹 配 相应 的 请 求 。 


这 两 个 特性 是 使 用 简单 的 请 求 一 应 管 范 式 的 大 多 数 现 有 UDP 应 用 
程序 的 一 部 分 ， 如 DNS 解 析 器 、SNMP 代 理 、TFTP 和 RPC。 我 们 不 打 
算 使 用 UDP 传送 海量 数据 ， 而 是 要 剖析 发 送 一 个 请 求 并 等 竺 一 个 应 答 
的 应 用 程序 。 


根据 其 定义 ， 数 据 报 是 不 可 靠 的 ， 因 此 我 们 故意 不 称 如 此 增加 的 
可 靠 性 为 “可靠 的 数据 报 服 务 ”。 事 实 上 “可 靠 的 数据 报 ? 是 一 个 目 相 巴 
盾 的 说 法 。 我 们 将 展示 的 是 在 不 可 靠 的 数据 报 服 务 (UDP) 之 上 加 入 
可 靠 性 的 一 个 应 用 程序 。 


增加 序列 号 比较 位 单 。 客 户 为 每 个 请 求 冠 以 一 个 序列 号 ， 服 务 器 
必须 在 返 送 给 客户 的 应 答 中 回 射 这 个 序列 号 。 这 样 客户 束 可 以 验证 某 
个 给 定 的 应 管 是 否 匹 配 早 先 发 出 的 请 求 。 


处 理 超时 和 重 传 的 老式 方法 是 先 发 送 一 个 请 求 并 等 待 N 秒 钟 。 如 
果 期 间 没 有 收 到 应 答 ， 那 就 重新 发 送 同 一 个 请 求 并 再 等 待 N 秒 钟 。 如 
此 发 生 一 定 次 数 后 放弃 发 送 。 这 是 线性 重 传 定 时 器 的 一 个 例子 。 
(TCPvV1 的 图 6-8 给 出 了 使 用 这 个 技巧 的 TFTP 客 户 程 序 的 一 个 例子 。 许 
多 TFTP 客 户 程序 仍 使 用 这 个 方法 。) 


这 个 方法 的 问题 在 于 数据 报 在 网 络 上 的 往返 时 间 可 以 从 局 域 网 的 
远 不 到 一 秒 钟 变化 到 广域网 的 好 几 秒 钟 。 影 响 往返 时 间 (RTT) 的 因 
素 包 括 距 离 、 网 络 速度 和 拥塞 。 男 外 ， 客 户 和 服务 器 之 间 的 RTT 会 因 
网 络 条 件 的 变化 而 随 厦 时 间 迅 速 变 化 。 我 们 必须 采用 一 个 把 实测 到 的 
RTT 及 其 随时 间 的 变化 考虑 在 内 的 超时 和 重 传 算法 。 这 个 领域 已 有 不 
ee 
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我 们 想 要 计算 用 于 发 送 每 个 分 组 的 重 传 超时 (retransmission 
timeout, RTO) 。 为 此 先 测量 每 个 分 组 的 实际 往返 时 间 RTT。 每 测 得 
一 个 RTT， 我 们 就 更 狐 2 个 统计 估算 因子 :srtt 是 平 消化 RTT 估 算 因 子 

(smoothed RTT estimator) ，rttvar 是 平滑 化 平均 偏差 估算 因子 

(smoothed mean deviation estimator) 。 后 者 只 是 标准 偏差 的 一 个 较 好 
近似 ， 不 过 由 于 不 涉及 开 方 而 易于 计算 。 有 了 这 2 个 估算 因子 ， 待 用 的 
RTO 就 是 srtt 加 上 4 倍 rttvar 。 [Jacobson 1988] 给 出 了 这 些 计 算 的 所 有 
细 节 ， 我 们 可 以 用 以 下 4 个 方程 式 加 以 总 结 。 


delta = 测 得 RTT - srtt 


srtt — srtt + g x delta 
rttvar — rttvar +h (|delta| - rttvar) 
RTO = srtt + 4 x rttvar 


delta 是 测 得 RTT 和 当前 平滑 化 RTT 估 算 因 子 (srt) 之 差 。9 是 施加 
在 RTT 估 算 因 子 上 的 增益 ， 值 为 118 。j 是 施加 在 平均 偏差 估算 因子 上 
的 增益 ， 值 为 1/4。 


RTO 计 算 中 的 两 个 增益 和 乘 数 4 都 特意 选 为 2 的 指数 ， 这 样 使 用 移 
位 运算 而 不 是 乘除 运算 就 可 以 计算 相关 值 。 事 实 上 TCP 内 核实 现 
(TCPv28525.753) 为 了 速度 起 见 通常 使 用 定点 算术 运算 进行 计算 ， 
不 过 为 了 简便 起 见 ， 我 们 在 本 节 后 续 代 码 中 使 用 浮 点 计算 。 


[Jacobson 1988] 指出 的 另 一 点 是 : 当 重 传 定 时 器 期 满 时 ， 必 须 
对 下 一 个 RTO 应 用 某 个 指数 回 退 (exponential backoff) 。 举 例 来 说 ， 
如 果 第 一 个 RTO 是 2 秒 ， 期 间 未 收 到 应 答 ， 那 么 下 一 个 RTO 是 4 秒 。 如 
果 仍 未 收 到 应 答 ， 那 么 再 下 一 个 RTO 是 8 秒 、16 秒 ， 依 次 类 推 。 


Jacobson 的 算法 告诉 我 们 每 次 测 得 一 个 RIT 后 如 何 计算 RTO 以 及 重 
传 时 如 何 增 加 RTO。 然 而 当 我 们 不 得 不 重 传 一 个 分 组 并 随后 收 到 一 个 
应 答 时 ， 称 为 “ 重 传 二 义 性 问题 ”(retransmission ambiguity problem) 
的 新 问题 出 现 了 了 人。 图 22-5 展 示 了 重 传 定 时 器 期 满 时 可 能 出 现 的 如 下 3 种 
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图 22-5 ” 重 传 定时 器 期 满 时 的 3 种 情形 
s ` 
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Fy 
。 应 答 丢 失 了 ; 
。 RTO 太 小 。 


当 客 户 收 到 重 传 过 的 茶 个 请 求 的 一 个 应 答 时 ， 它 不 能 区 分 该 应 答 
对 应 哪 一 次 请 求 。 对 于 右 侧 的 例子 ， 该 应 答对 应 初始 的 请 求 ， 对 于 力 
外 两 个 例子 ， 该 应 答对 应 重 传 的 请 求 。 


Karmn 的 算法 [Karn and Partridge 1987] 可 以 解决 重 传 二 义 性 问 
题 ， 即 一 旦 收 到 重 传 过 的 某 个 请 求 的 一 个 应 答 ， 束 应 用 以 下 规则 。 


。 即使 测 得 一 个 RTT， 也 不 用 它 更 新 估算 因子 ， 因 为 我 们 不 知道 其 
当 


中 的 应 答对 应 哪 次 重 传 的 请 求 。 

。 既然 应 管 在 重 传 定时 器 期 满 前 到 达 ， (可 能 指数 回 退 过 的 ) 
RTO 将 继续 用 于 下 一 个 分 组 。 只 有 当 我 们 收 到 未 重 传 过 的 某 个 请 
求 的 一 个 应 答 时 ， 我 们 才 更 新 RTT 估 算 因 子 并 重新 计算 RTO。 


在 编写 我 们 的 RTT 函 数 时 采用 Karn 的 算法 并 不 困难 ， 然 而 还 存在 
着 更 为 精妙 的 解决 办 法 。 这 个 办 法 来 自 TCP 用 于 应 对 “长 胖 管 道 ”( 有 
较 高 带宽 或 有 较 长 RTT， 抑 或 两 者 都 有 的 网 络 ) 的 扩展 ， 见 RFC 1323 
| Jacobson, Braden, and Borman 1992] 。 本 办 法 除了 为 每 个 请 求 冠 以 
一 个 服务 恬 必 须 回 射 的 序列 号 外 ， 还 为 每 个 请 求 冠 以 一 个 服务 恬 同 样 
必须 回 射 的 时 间 戳 (timestamp) 。 每 次 发 送 一 个 请 求 时 ， 我 们 把 当前 
时 间 保 存在 该 时 间 礁 中 。 当 收 到 一 个 应 答 上 时， 我 们 从 当前 时 间 减 去 由 
服务 器 在 其 应 答 中 回 射 的 时 间 玲 束 算 出 RTT。 有 既然 每 个 请 求 携带 一 个 
将 由 服务 器 回 射 的 时 间 戳 ， 我 们 可 以 如 此 算出 所 收 到 的 每 个 应 答 的 


当前 


RTT。 采 用 本 办 法 不 再 有 任何 二 义 性 。 此 外 ， 既 然 服务 硕 所 做 的 只 是 
回 射 客户 的 时 间 堆 ， 因 此 客户 可 以 给 时 间 戳 使 用 任何 期 望 的 时 间 单 
位 ， 而 且 客 户 和 服务 占 根 本 不 需要 为 此 拥有 同步 的 时 钟 。 


例子 


我 们 接 下 去 通过 一 个 例子 实现 所 有 上 壕 内 容 。 首 先 把 图 8-7 中 的 
UDP 回 射 客户 程序 的 main 函 数 所 用 的 端口 号 从 SERV_PORT 改 为 7 Ces 
准 回 射 服务 器 ， 图 2-18) 。 


图 22-6 是 dg_cli 琴 数 。 与 图 8-8 相 比 ， 仪 有 的 改动 是 把 sendto 和 
recvfrom 调 用 替换 为 调用 我 们 的 新 函数 dg_send_recv » 


HE clic 
1 #1includie "uup.l" 
2 ssize t 2g send recv(int. const void *, size t, void *, size t, 
const SA *, socklen t); 

4 void 
5 dg cli (FILE "fp. int sockfd, const SA "pservad^r, socklen rt sevu- en) 
€ 
了 ssize t a; 
E char aendline[MAXLINRE., recvline (MAXLINE + 1]; 
S while (Pgets(sendline, MAXLINE, fp) != NULL) | 
10 n = 2g send recv(sockfd, sendline, strlen!sendlins', 
11 recvline, MAXLTNE, ossrvadkir, servlen); 
12 recvlinefn]) = 0; /* mill terminata */ 
13 Bputs;recvline. stdcu:); 
14 } 
is } 

ritfde chc 


图 22-6 AAPA Adg_send_recvike0hdg_cliKx 
在 给 出 dg_send_recv 函 数 和 它 调用 的 RTT 函 数 之 前 ， 我 们 先 通 


过 图 22-7 给 出 如 何 给 一 个 UDP 客 户 程 序 增 加 可 靠 性 的 轮廓 。 所 有 以 
rtt_ 打 头 的 函数 随后 给 出 。 


static sigjmp but jypruf; 


Kiii 2 
cignal (SICALRM, sig_alrm); /* cstablish sianal handler */ 
rtt newpack!!; fa initialize rexmt counter to C */ 
sendagain: 
&erdto(); 
ala&rm[rtt start(/); /* set alarm for RTO seccnds */ 
if {sigsetjmpijmpbuf, 1) != oj | 
if ixtt_timeout ()) /* double RTO, retransmitted enough? */ 
OF 
gozo sendagain, /* retransmit */ 
ce i 


recvrrom() ; 
} while 《 序 州 号 诬 误 ) ) 


aisrm(0); fs turn off alarm */ 
rtt stop): /* calculate RTT and usdate cstimators */ 
MEARE 
void 
sig alrm(int simo! 
€iglongirp(“*mpbut, 1); 
} 


图 22-7 RTT 画 数 的 轮廓 以 及 它们 的 调用 时 机 


600 
当 收 到 一 个 其 序列 号 并 非 期 望 值 的 应 答 时 ， 我 们 再 次 调用 
recvfrom,， 但 是 不 重 传 请 求 ， 也 不 重启 运行 中 的 重 传 定数 器 。 注 意 
22-5 右 侧 的 例子 ， 与 重 传 的 那个 请 求 对 应 的 最 后 一 个 应 答 将 在 客户 
下 一 次 发 送 一 个 新 请 求 时 出 现在 套 接 字 接收 缓冲 区 中 。 它 不 会 引起 问 
题 ， 因 为 客户 会 读 入 这 个 应 答 ， 注 意 到 它 的 序列 号 并 非 期 望 值 ， 于 是 
丢弃 它 并 再 次 调用 recvfrom。 


我 们 调用 sigsetjmp 和 siglongjmp 来 避免 20.5 节 讨论 过 的 由 
SIGALRM 信 号 引起 的 竞争 状态 。 


图 22-8 给 出 了 dg_send_recv 函 数 的 前 半 部 分 。 


1 #include 


^J 


EJ 


jn 


m 
O 的 


13 


"ugprt-.h' 


$incinde eger jmp h> 


{de Tine RTT_ORRIN 


ritde_send _vecv.c 


rttiafc; 


struct msghdr mszsenz, nasgrecv; /* assumed init to 0 */ 


/* sequence # */ 
/* cimestamp wher sert */ 


szetic struct rtt into 
s-atic irt rt-ini- = 0; 
static 
static struct hdr ( 
uirt32 t segi; 
uirti2 t ts; 
| sendhdr, recvhdr; 
Static void sig alrm(int sisne]; 
static siajnc buf jmobue ; 
ocize t 


14 dg send recví(:nt fd, const void *cutbufz, size t outbytes, 
void *inbuf=, size_t :nbytes, 
const SA *destaddr, socklen t destlen) 


15 
1e 
17 
18 
19 


20 
21 
22 
2* 
24 


32 


{ 
ssize t n; 
struct 


if (rttinit == 0) { 
rtt init(&rttinfo); 


rktinic = 1; 


rtr d flag =i: 


) 


sendhdr.seq-++; 


invee lowsernd (2), 


ievrecv 12]; 


/* first time we're called */ 


msgsenc.msc name = destadir; 
msgsenc.msc namelen - destlen; 
msqsenc.msc iov = ioveend; 
meqcenc.mez iov-en = 2; 


iovsenc[C).icv len = sizeoflstruct hd-); 


= cutbuff; 


iovsenc[C].icv base - &serdhdr; 
iovsenc[1).:zv base 
iavsenc[1).:cv "en 


cut bytes; 


msgrecv,msz name ~ NULL; 


msgrecv.usg namelea 


msgrecv.msg iov = 


= 0; 
iovrecv; 


msgrecv.msc iovlen = 2: 


iovrecv [c] 
iovrecv [0). 
iovrecv|1, 
iovrecv [1] 


[22-8 dg send recvERZX: 


..2v base - Lrecvtdr; 

isv len = sizeof (struct hdr); 
.ov baee = inbuff; 

"ov len = inbytes, 


ritkig send reve 


前 半 部 分 


1-5 我们 包含 一 个 新 的 头 文件 unprtt .h， 它 在 图 22-10 中 给 
出 ， 其 中 定义 了 用 于 为 客户 维护 RTT 信 息 的 rtt_info 结 构 。 我 们 声 


明 一 个 rtt_info 结 构 变 量 和 许多 其 他 变量 。 


定义 msghdr 结 构 和 hdr 结 构 


6-10 RAZE a FB er eed 123 8E 2 H LA dS 
一 个 时 间 惟 这 一 事实 。 最 简单 的 方法 是 使 用 writev， 作 为 单个 UDP 
数据 报 先 写 出 我 们 的 首部 (hdr 结构 ) ， 再 写 出 调用 者 的 数据 。 回 顾 
一 下 ， 我 们 知道 writev 在 数据 报 套 接 字 上 的 输出 是 单个 数据 报 。 该 
方法 既 比 迫使 调用 者 在 其 缓冲 区 前 部 预 留 供 我 们 使 用 的 空间 来 得 简 
单 ， 也 比 把 我 们 的 首部 和 调用 者 的 数据 复制 到 一 个 还 需 分 配 其 空间 的 
缓冲 区 中 以 便 调用 单个 sendto 来 得 迅速 。 然 而 由 于 我 们 在 使 用 UDP 
且 必 须 指定 目的 地 址 ， 因 此 我 们 必须 使 用 sendmsg 和 recvmsg 的 
iovec 能 力 代 替 sendto 和 recvfrom。 回 顾 14.5 节 ， 我 们 知道 就 辅助 
数据 而 言 ， 有 些 系统 定义 的 msghdr 结 构 比 较 新 ， 较 老 的 系统 定义 的 
该 结构 末尾 仍然 是 访问 权限 成 员 。 为 了 避免 因 揪 入 用 来 处 理 这 些 差 别 
的 #ifdef 而 把 代码 搞 复杂 ， 我 们 把 2 个 msghdr 结 构 变 量 声明 为 
static 全 局 变量 ， 从 而 按照 C 语 言 规范 迫使 它们 被 初始 化 为 全 0， 以 
后 只 需 简单 地 忽略 这 2 个 结构 末尾 没有 用 到 的 成 员 。 


首次 被 调用 时 进行 初始 化 


20-24 ” 当 本 函数 首次 被 调用 时 ， 调 用 rtt_init 函 数 进行 初始 
化 。 


填写 msghdr 结 构 
25-41 填写 分 别 用 于 输入 和 输出 的 2 个 msghdr 结 构 。 给 当前 分 


组 递增 发 送 序列 号 ， 但 是 直到 发 送 之 前 暂 不 设置 发 送 时 间 戳 〈 因 为 该 
分 组 有 可 能 被 重 传 ， 而 每 次 重 传 都 需要 当前 时 间 戳 ) 。 


601~ 
602 
本 函数 的 后 半 部 分 以 及 sig_alrm 信 号 处 理 函 数 在 图 22-9 中 给 
出 o 


rit^dg send rezv.c 


42 SigualiSIGALRM, s. alru; 
43 rtt newpack(&rttinfo); /* initialize fcr this packet */ 


44 sandagain: 


45 sendhdr.ts - rtt ts;/srttinto|; 

46 Sendmsg(fd, &mesgsend, 0); 

avy alarmí(rrr srart (&rrrinfol)): /* calc rimenci- valve »& start timer */ 
ag i£ (scigee-jmp(jmzbuf, 1) != 0) { 

49 i= (rtt tireouzl&rttirfo] < 0) [ 

50 e-xr rsg("dg send recv: no response from server, giving up"); 
at rttinit = J; j^ rinit in case we're called ayain */ 
52 erme - ZTINEDOQUT; 

£3 return(-1); 

ed } 

£5 goto ssndagain; 

t6 ) 

57 dc ( 

58 n = Rezvrsg!fd, tmsgrecv, 0}; 

59 } while in e sizeofistrucr hdr) | recvhdr, seq |= zendhdr. seq) : 

[14] alarm! ; /* stop SIGALFM timer */ 

Ci /* calculate & store new RTT estimator values */ 

£2 rtt s-opí&rtticfto, rrt tsl&rttirfz) ~ recvhdr.ts); 

63 returmin - sizeof (struct hdr;): /* return size of received datagrem */ 
&4 | 


£5 static voic 
£6 sig alrmiirt signo) 


Eg , siglongjmp!jmpbouf, 1); 


rude send recvc 


122-9 dg_send_recv 画 数 :， 后 半 部 分 也 


建立 信号 处 理 画 数 


42-43 建立 一 个 SIGALRM 信 号 处 理 函 数 ， 调 用 rtt_newpack 
把 重 传 计数 器 设置 为 0。 


发 送 数 据 报 


45~47 调用 rtt_ts 获 取 当 前 时 间 惟 ， 并 把 它 存 入 将 安置 在 用 
户 数据 之 前 的 hdr 结 构 中 。 调 用 sendmsg 发 送 单个 UDP 数据 报 。 
rtt_start 返 回 以 秒 钟 为 单位 的 本 次 超时 值 ， 我 们 以 此 调用 alarm 以 
调度 SIGALRM 。 


建立 跳 转 缓冲 区 


48 调用 Sigsetjmp 为 信号 处 理 函 数 建 立 了 一 个 跳 转 缓冲 区 。 
若 sigsetjmp 的 返回 不 是 由 长 跳 转 引 起 则 调用 recvmsg 等 待 下 一 个 
数据 报 的 到 达 。 (我 们 已 在 图 20-9 中 随 SIGALRM 讨 论 过 sigsetjmp 和 
siglongjmp 的 用 法 ) 。 如 果 alarm 定 时 器 期 满 ，sigsetjmp 就 由 长 
跳 转 返回 1。 


603 
处 理 超时 

49-55 ” 当 超 时 发 生 时 ，rtt_timeout 用 于 计算 下 一 个 RTO ( 指 
数 回 退 ) ， 而 且 若 应 放弃 则 返回 -1， 若 应 重 传 则 返回 0。 车 放弃 则 把 
errno 设 置 为 ETIMEDOUT 并 返回 给 调用 者 。 
调用 recvmsg， 比 较 序 列 号 


57-59 ”通过 调用 recvmsg 等 得 一 个 数据 报 的 到 达 。 所 接收 数据 
报 的 长 度 必 须 至 少 是 我 们 的 hdr 结 构 的 大 小 ， 而 且 其 序列 号 必须 等 于 
所 发 送 数 据 报 的 序列 号 。 如 果 有 一 个 比较 失败 ， 那 束 再 次 调用 


recvmsg ° 
关闭 alarm 并 更 新 RTT 估 算 因 子 

60-62 ” 收 到 期 得 的 应 答 后 ， 关 闭 尚 未 期 满 的 alarm 并 调用 
rtt_stop 更 新 RTT 估 算 因子 。rtt_stop 调 用 中 ，rtt_ts 返 回 当 前 
时 间 稚 ， 从 中 减 去 所 接收 数据 报 的 时 间 樵 得 到 RTT ° 
SIGALRM 处 理 函 数 


65-69 调用 siglongjmp， 使 dg_send_recv 中 的 
sigsetjmp 返 回 1。 


我 们 接着 查看 由 dg_send_recv 调 用 的 各 个 RTT 函 数 。 图 22-10 给 
出 了 unprtt.h 头 文件 。 


linpri h 
1 fifnief — un: rt= h 
fdez"ins ume rt- h 


#incluse "unp.h* 


4 struct rtt info ( 

5 fisat rtc rtt; /* most recent reasured RTT, in seconds */ 

€ float  rt-z srtt: /* smoothed RTT estimator, in seconds */ 

7 f° nar rt- rrrvar; /* smoorhed mean deviation, in seccnds */ 

& float rt- rto; /* current Ku to use, in eeconds */ 

9 int rt- nrexmt; /* & times retransmitted: C, 1, 2, ... */ 

16 uirt32 t rtt base; /* & sec since 1/1/1970 at start */ 

11 ): 

12 &dszins SOT 3XTMIN 2 /* min retransmit timeout value. in seconds */ 
13 deins RT SXTMAX £0 /* max retransmit timeout value, in seconds */ 
14 ¢#deline RTT_MAXNREXNT 3 /* max & tires -o retransmit */ 

15 /* function prototypes */ 

16 void rtt. delugistruct rtr info +); 

17 void rtt init(struct rtt infec *): 

1€ void rtt newpack!struct rt- into *!; 

19 int rtt star-istruct rtt info *!; 

20 veid rib ost ap Gst rurt rht nfo *, uint 32 t); 

21 int rtt cimecutistruct rtz info *!; 


22 uint32 t rtt tcíoctruct rtt info +}; 
23 extern int rtz d flag: /* cen be set to nonzero for add. info */ 
24 kerdif /rv — unp rtt h */ 
lib/mpri.t 


图 22-10 unprtt,h 头 文件 


604 
rtt_info 结 构 


4-11 这 个 结构 含有 用 于 在 客户 和 服务 器 之 间 定 时 分 组 所 必需 的 
变量 。 前 4 个 变量 来 目 本 下 开始 处 给 出 的 方程 式 。 


12-14 ”这些 稼 值 定义 最 小 和 最 大 重 传 超时 值 以 及 最 大 重 传 次 


T 
2 


&22-1128 E T “SAB 2-“S RTT NEY © 


-lirice 


1 #include "ur.prLL ol" 


2 int 


ie 
+ 


* 


x} 


rtt 3 flag - 0; /* debuz fiag; can be set bv caller */ 


smoothed RTT plus four times rhe deviation 


Z 
3 
4 * Calculate the RTO value based cn current estimators: 
5 
6 


7 $3ctinc RTT_RTCCALC iptr) !'(ptr,;-»rtz 5rtt + (4.0 v (str) »rtt rttvar)! 
8 static float 


9 ri t_minmex (float riol 

10 : 

Ai iE (rzo < RTT_RXTMIN) 

12 rto = RTT 3XTMIN; 

13 els» if irto > RTT_RXTMAX) 

14 rto = R7I AXIMAX; 

15 returni!rto); 

16 ， 

17 void 

18 rtt iniz!otruct rtt into *pt-) 

19 : 

20 struc- timeval tw; 

ai Gettimeofdey (atv, NULLI; 

z2 ptr »rtt bzsc = tv.tv_sec; /* A sec since 1/1/1970 at start */ 
23 ptr-»rtt rtt a Dj 

24 ptr-»rtt srtt = 0; 

45 ptr-»rtt rttvar - 0.75; 

£6 ptr-zrtt rto = rtt minmax|RTT RTOCALC(pzr!); 

27 /* first RTO at (srtc + (4 * rttvar)] = 5 secords */ 
28 


litt 
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[22-11 RTT_RTOCALC 宏 以 及 rtt_minmax 和 rtt_init 函 数 


NA 


3-7 RTT RTOCALCZE HRTT(& ES T JJ EATESE S ie fr A 
子 计 算出 RTO。 


8~16 


界 之 间 。 


17~28 


rtt_minmax 确 保 RTO 在 unprtt.h 头 文件 中 定义 的 上 下 


rtt_init 由 dg_send_recv 在 首次 发 送 任意 一 个 分 组 


时 调用 。 其 中 gettimeofday 返 回 当前 时 间 和 日 期 ， 存 放 在 select 

函数 (6.375) 也 使 用 的 timeval 结 构 中 。 我 们 仅仅 保存 自 Unix 纪 元 
(00:00:00 UTC 时 间 ) 以 来 的 秒 钟 数 。 测 得 的 RTT 初 置 为 0，RTT 估 算 
因子 和 平均 偏差 估算 因子 分 别 初 置 为 0O 和 0.75， 给 出 初始 RTO 为 3 秒 


H o 


22-1228 E A F3 RTTERZ © 


liécti.c 


34 uirL32 L 
35 rct ts(strucc rt- info *pcr) 


ae 4 

37 uint32 t ts; 

386 struct timeval tv; 

39 Gettimeofday(&zv, NULL:; 

40 ts = ((tv.tv sec ~ ptr-»-tt base) * 1000) + (tv.tv usec / 1600); 
41 return(ts); 

42 ] 

43 void 


44 rtt mewpack (struct rtt info *ptr) 


a5 | 


46 pLr-»rztL nrexh. = 2; 

à; ) 

46 int 

49 rit st {st t L1 f tr) 

so { 

51 xetuxn([int] (ptr--rtt_rto + 0.2)); /* round float tc int */ 
2 /* return value can be used as: alarm[rtc_starti&foo!) */ 


Ta 


图 22-12 rtt_ts».rtt_newpack#firtt_startHAX 


34-42 rtt_ts 返 回 当前 时 间 惟 ， 供 调用 者 作为 一 个 无 符号 32 
位 整数 存放 在 待 发 送 的 数据 报 中 。 我 们 调用 gettimeofday 获 取 当 前 
时 间 和 日 期 ， 从 中 减 去 调用 rtt_init 时 的 秒 钟 数 ( 即 存放 在 
rtt_base 中 的 值 ) ; 接着 把 这 个 差 值 转换 成 毫秒 数 ， 并 把 由 
gettimeofday 返 回 的 微 秒 值 转换 成 双 秒 数 。 时 间 惟 束 是 以 喀 秒 为 单 
位 的 这 两 个 数值 之 和 。 


两 次 rtt_ts 调 用 返回 值 之 差 束 古 这 两 次 调用 之 间 的 晤 秒 数 。 我 


们 把 以 又 秒 为 单位 的 时 间 玲 存放 在 无 符号 32 位 整数 中 ， 而 不 是 存放 在 
timeval 结 构 中 。 


43-47 rtt_newpack 只 是 把 重 传 计数 器 设置 为 0° 每 当 第 一 次 
发 送 一 个 新 的 分 组 时 ， 痢 得 调用 这 个 范 数 。 


48-53 rtt_start 以 秒 为 单位 返回 当前 RTO。 返 回 值 随后 可 用 
作 alarm 的 参数 。 


图 22-13 给 出 的 rtt_stop 在 收 到 一 个 应 答 后 调用 ， 用 于 更 新 RIT 
估算 因子 并 计算 新 的 RTO。 


AT 


47 void 

62 rtt_stop(struct rtt in?o *pcr, uinct32 t ms) 
64 1 

65 double delta; 


bE ptr->xtt rtt = mnc / 1000.0; /* meacured RTT in seconde */ 

65 /* 

st * Update cur estimators of RIT and mean deviation of RIT. 

59 + Sce Jacchoon's SIOCOMM '£8 paper, Appendix ^, fcr the detaiic, 
70 * Ne use Floating point here for simplicity. 

71 af 

72 delta = ptr-zrzt rct - ptr-»rtt srtt; 

73 prr-»rtt srtt += delra / R; f* gs 1/8 */ 

74 i= (celta < V.J) 

75 delta = delta; /* [delta] */ 

76 ptr-»ztt rttvar + idelta - ptr-»rtc ttvar) / 4; /* he life f 
7 ptr-srtt_rto = rtt_minmex(RTT_RTOCALC (ptr}) ; 

78 ) 


lieta 


图 22-13 rtt stopERZi: 更 新 RIT 估 算 因 子 并 计算 新 的 RTO 


62-78 第 二 个 参数 是 测 得 的 RIT， 它 由 调用 者 通过 从 当前 时 间 
Bx (rtt ts) 中 减 去 收 到 的 应 答 中 的 时 间 戳 得到。 本 函数 应 用 本 
开始 处 的 方程 式 ， 在 rtt_srtt、rtt_rttvar 和 rtt_rto 这 3 个 成 员 
中 存放 新 值 。 


图 22-14 给 出 的 最 后 一 个 RTT 函 数 rtt_timeout 在 重 传 定时 器 期 
满 时 调用 。 


lib/rii.c 
B1 ont 
€4 ret timeout (struct rot info *ptr) 
65 « 
£6 ptr-»rtt rto *- 2; /* next RTO */ 
&7 if (++ptr-srtt_nremmc > RTT MAXNREXMZ|! 
E8 return(-1); /* tire to give up tor this packet */ 
[--] retura!0); 
eo 
lih tit 


图 22-14 rtt timeoutEKZi. 应 用 指数 回 退 


86 当前 RTO 加 倍 : 这 束 是 指数 回 退 。 


87-89 如 果 已 经 达到 最 大 重 传 次 数 ， 那 就 返回 -1， 告 知 调用 者 
放弃 ; 否则 返回 0。 


作为 一 个 例子 ， 我 们 的 客户 程序 在 某 个 工作 日 早上 针对 2 个 跨 因 特 
网 的 不 同 echo 服 务 如 执行 了 2 次 。 发 送 给 每 个 服务 器 的 都 是 500 行 文 
本 。 去 往 第 一 个 服务 器 的 分 组 有 8 个 丢失 ， 去 往 第 二 个 服务 右 的 有 16 个 
丢失 。 去 往 第 二 个 服务 器 的 丢失 分 组 中 ， 有 一 个 连 着 丢失 两 次 ， UN 
征 说 在 收 到 该 分 组 的 某 个 应 答 之 前 ， 客 户 不 得 不 重 传 该 分 组 两 次 。 所 
有 其 他 丢失 分 组 都 只 需要 一 次 重 传 处 理 。 我 们 可 以 通过 显示 每 个 收 到 
分 组 的 序列 号 来 验证 这 些 分 组 确实 丢失 了 “。 如 采 一 个 分 组 仅仅 被 延迟 
而 并 没有 丢失 ， 那 么 重 传 之 后 客户 会 收 到 两 个 应 答 : 一 个 对 应 于 被 延 
迟 了 的 初始 传送 ， 男 一 个 对 应 于 再 次 传送 。 当 重 传 分 组 时 ， 我 们 无 法 
区 分 个 丢弃 的 分 组 究 苋 是 客户 的 请 求 还 古 服 务 侨 的 应 管 。 


为 了 测试 本 客户 程序 ， 作 者 在 本 书 第 一 版 中 编写 了 一 个 随机 丢弃 
分 组 的 UDP 服务 器 程序 。 这 种 程序 现在 不 再 需要 了 ; 我 们 只 要 针对 一 
ee ra 我 们 几乎 可 以 保证 总 有 些 分 
组 会 ! 


22.6 ”捆绑 接口 地 址 


get_ifi_info 汞 数 的 常见 用 途 之 一 是 用 于 需要 监视 本 地 主机 所 
有 接口 以 便 获 悉 某 个 数据 报 在 何 时 及 哪个 接口 上 到 达 的 UDP 应 用 程 
序 。 这 种 用 途 允 许 接收 程序 获悉 该 UDP 数据 报 的 目的 地 址 ， 因 为 决定 
一 个 数据 报 的 递送 套 接 字 的 正 是 它 的 目的 地 址 ， 即 使 主机 不 支持 
IP_RECVDSTADDR 套 接 字 选项 也 不 影响 目的 地 址 的 获悉 。 


回顾 22.2 节 末尾 的 讨论 。 如 果 主 机 使 用 普通 的 弱 端 系统 模型 ， 那 
么 目的 了 地址 可 能 不 同 于 接收 接口 的 也 地址。 这 种 情况 下 我 们 只 能 确 
定数 据 报 的 目的 地 址 ， 它 不 必 是 分 配给 接收 接口 的 某 个 地 址 。 为 了 确 
定 接收 接口 ， 需 要 IP_RECVIF 或 IPV6_PKTINF0 这 两 个 套 接 字 选项 
之 一 o 


图 22-15 给 出 了 使 用 该 拉 术 的 一 个 简单 UDP 服 务 右 程序 例子 的 第 一 
部 分 ， 它 捆绑 所 有 单 播 地 址 、 所 有 广播 地 址 以 及 通 配 地 址 。 


atvio/tidt: servü3.c 


1 éincluce "uupifi.h" 


void nydg scho(int. SA *, sccklen t, SA *]; 


M 


3 int 

4 main(:rt argc, chav **argv) 
51 

€ int 3ockEd; 

7 const int cn = 1; 


£ pidr pid; 
9 struct fi infec tifi, tifihsad; 
C 


16 struct soc«addr in *sa, cliadd-, wildaddr; 

11 for (if:head = iti = Get_iti_info(AP_INET, 1); 

12 ifi !z NULL; ifi = ifi-»ifi next] | 

12 /* bind unicast address */ 

14 sockfd = Socket (AR TNET, SOCK DGRAM, 0); 

15 Betsaockopt (sockfd, S05 SOCKET, SO RRUSFANDR, &on, sizeof con!)); 
1€ 5a = {struct sockaddr_in *) ifi-s:fi_addr: 

15 sa-»sin femily = RF "NET; 

it Sa->sin port - htons [SERV PORT): 

19 3ind(sockfd, (SA *) sa, oiscot(*o3);; 

20 printf ("hound $an", Sock_ntopt(Sa *) sa, Ri zenf (*sa})); 

21 if i (pid = Pork{)) == 9) | /* child */ 

22 mydj echoisockfd, (SA +) &cliaZdr, sizeoficliader), (SA +) sal; 
23 aexit(Q!; /* rever axecuted */ 

24 ) 


advio/mdpservü3.c 
[22-15 “捆绑 所 有 地 址 的 UDP 服务 器 程序 的 第 一 部 分 
调用 get_ifi_info 获 取 接 口 信息 


11-12 调用 get_ifi_info 获 取 所 有 接口 的 所 有 IPv4 地 址 ， 包 
括 别名 地 址 在 内 。 本 程序 接着 遍历 每 个 返回 的 ifi_info 结 构 。 


创建 UDP 套 接 字 并 捆绑 单 播 地 址 


13-20 创建 一 个 UDP 套 接 字 ， 在 其 上 捆绑 单 播 地 址 。 我 们 还 设 
置 SO_REUSEADDR 套 接 字 选项 ， 因 为 我 们 要 给 所 有 卫 地 址 捆绑 同一 个 
端口 (SERV_PORT) 。 
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并 非 所 有 的 实现 都 需要 设置 这 个 套 毛子 选项。 举例 来 说 ， 源 目 
Berkeley 的 实现 不 需要 该 选项 欧 允 许 重 新 bind 一 个 已 经 绑 定 的 端口 ， 


只 要 新 捆绑 的 IP 地 址 : (a) 不 是 通 配 地 址 ， (b) 不 同 于 已 经 绑 定 在 
该 端口 上 任何 一 个 IP 地 址 。 


为 当前 地 址 fork 子 进程 


21-24 fork 一 个 子 进 程 并 由 子 进程 调用 mydg_echo 函 数 。 该 
函数 等 待 任意 数据 报到 达 这 个 套 接 字 ， 然 后 把 它 回 射 给 发 送 者 。 


图 22-16 给 出 了 main 函 数 的 第 二 部 分 ， 这 部 分 处 理 的 是 广 播 地 
He 


adviosndoserv0I.c 


25 i^ fifi-»ifi flags & IFF SRCADCAST) { 

26 /* try te bind broadcas- address */ 

27 sockid = Socket|AE 1MET, SUCK_DGRAM, 0); 

28 Setsccxopt(sockfd, SOL SOCKET, S9 REUSZACDR, éon, sizeof cn) ) ; 
29 Sa = ;struct sockaddr in *) ifi->if:_brdaddr; 

30 sa-»siz family = AF INET; 

31 Sa-»81" port = ht^ns;sEsV PORT): 

32 iz (bind(cockfd, (SA *; ca, cizeoti*ca)) < 0) [ 

33 if (errnc -= BADDRINUSE) ( 

34 zrinrf("SADDRINCSE: fis\n', 

35 Sok nrop;(SA *) sa, sizecf(*sal)); 

36 Case Gock*d, ; 

3? continue, 

3a ) 二 ] ae 

39 err sys'"bind err-r for $s". 

40 Sock ntop((SA +) sa, sizeof (*3a))); 

41 j 

42 p intf ("bound $s", Sock. ncopli (SA *) sa, sivmaof (4s8!)) > 
413 TM iQ d = Fork(); ma 4) { 2 hi «/ 

a4 myag_eche(sockid, (SA +) acliaddr. sizeofícliad3-), 
4s (SA +) sab; 

46 exit(0); /* meves executed */ 

47 

48 ) 

19 ] 


advio/ndpserv03.c 
图 22-16 ”捆绑 所 有 地 址 的 UDP 服 务 器 程序 的 第 二 部 分 


捆绑 广播 地 址 


25~42 ”如 果 当 前 接口 支持 广播 ， 那 束 创 建 一 个 UDP 套 接 字 并 在 
其 上 捆绑 广播 地 址 。 这 次 我 们 允许 bind 调 用 以 EADDRINUSE 错 误 返 回 
失败 的 结果 ， 因 为 如 果 某 个 接口 有 多 个 处 于 同一 个 子 网 的 地 址 Cel 
Z) ， 那 么 这 些 单 播 地 址 要 对 应 同一 个 广播 地 址 。 我 们 在 图 17-6 之 后 


给 出 过 
的 。 


这 样 的 一 个 例子 。 这 种 情形 下 我 们 只 能 期 望 第 一 次 bind 征 成 功 


fork 子 进程 
43-47 fork 一 个 子 进程 并 由 子 进程 调用 mydg_echo 国 数 。 


main 函 数 最 后 一 部 分 在 图 22-17 中 给 出 。 这 上段 代码 bind 通 配 地 
址 ， 以 处 理 除 已 经 绑 定 的 单 播 和 广播 地 址 之 外 的 任何 目的 地 址 。 能 够 
到 达 这 个 套 接 字 的 数据 报 只 应 该 是 目的 地 为 受 限 广播 地 址 

(255.255.255.255) 的 数据 报 。 


adviendoservi3.c 


/* bind wildcard address 4, 
scexfd - Socket (AF INET, SOCK DORAM, 9); 
Setsockoptiseckid, SCL_SOCKET, SO_REUSEADDR. &on, as-zecf(on)!; 


bzero(&wildaddr, sizeof iwildaddr] } ; 

wildadd-.sin fami!y = AP INET; 

wildaddyr.sin_atdr s addr = hronl (MADIR_ ANY); 

wildaddr.cin port = atonc(SERV_CORT) ; 

Dindísock£d. (SA *) &wildeddr, s:zecf(wildadi-)!; 

printf ("bound §s\n", Sock ntop((Sh +*+) &wildaddr, sizeof iwildacdr))!; 


i£ ( (pid = Fork()) == 0I [ /* child 47 
mvcoa echsisocktd, (SA v) &ecliaddr. sazeoticliaddr), (SA *) sal; 
exit (0), /* nevez executed */ 

Í 

exit í); 


advio/napserv03.c 


图 22-17 ”捆绑 所 有 地 址 的 UDP 服务 器 程序 的 最 后 一 部 分 


BST FA A eae 


50-62 创建 一 个 UDP 套 接 字 ， 设 置 SO_REUSEADDR 套 接 字 选 
项 ， 捆 绑 通 配 IP 地 址 。 派 生 一 个 子 进程 并 由 子 进程 调用 mydg_echo 函 


数 。 


main K žE 
63 main 函数 终止 ， 服 务 器 父 进程 结束 ， 不 过 已 派生 的 所 有 子 


进程 继续 运 


支行 。 


4122-1828 T ATA xti eH mydg_echolNay » 


acviomdpservü3.c 


65 void 
55 myåg echciinc sockid, SA *pciiaddr, sockler t zlilen, SA *myad2dr; 


$7 1 


66 int. 2; 
69 char mesg (MAXLINE: ; 
76 eceklen t len; 
71 fort x2 bt 
Jà len = clilen: 
73 21 = RecvErom(sockid, meag, MAXLINE, 2, pcliadd-, &lcn); 
74 printf ("child $i, datagram From $s", getcid'), 
75 Sock nropípc] jaddr, len)!; 
7€ zrintf(", to te\n", Soc« ntop(mvadzr, czlilemn!): 
Ti Sericoe(sockfid, mesg, n, 0, poliaddr, len); 
7E ) 
79 ) 
advio/ndpserv03.c 
图 22-18 mydg. echoERZK 
新 参数 


65-66 本 函数 的 第 四 个 参数 是 绑 定 在 给 定 套 接 字 上 的 了 地 址 。 
这 个 套 接 字 应 该 只 接收 目的 地 址 为 该 IP 地 址 的 数据 报 。 如 果 该 IP 地 址 
征 通 配 地 址 ， 那 么 这 个 套 接 字 应 该 只 接收 与 绑 定 到 同一 端口 的 任何 其 
他 套 接 字 都 不 匹配 的 数据 报 。 


读 入 数据 报 并 且 返 送 应 答 
71-78 调用 recvfrom 读 入 数据 报 ， 再 调用 sendto 把 它 发 回 给 


o 本 函数 还 输出 客户 的 IP 地 址 以 及 瑚 定 在 这 个 公 接 字 上 的 IP 地 


611 
在 主机 solaris 上 先 为 hme0 以 太 网 接口 设置 一 个 别名 地 址 ， 再 
运行 本 程序 。 那 个 别名 地 址 为 10.0.0.200/24。 


solaris % udpserv03 

bound 127.0.0.1:9877 环 回 接口 

bound 10.0.0.200:9877 hme : 132: E1805 E KEHE 
bound 10.0.0.255:9877 hmeo : 132: 185] HEU 


Fe Fe 


bound 192.168.1.20:9877 hmeg9 接 口 的 单 播 地 址 
bound 192.168.1.255:9877 hme0 接 口 的 广播 地 址 


bound 0.0.0.0:9877 通 配 地 址 


我 们 可 以 使 用 netstat 检 查 所 有 这 些 套 接 字 确实 绑 定 了 所 指出 的 
IP 地 址 和 端口 号 。 


solaris % netstat -na | grep 9877 
Idle 
Idle 
Idle 


Idle 
* 9877 Idle 
* 9877 Idle 


Waa, BARA AE TS IRAE P URBIS RA 
单 起见 ， 也 可 以 采用 其 他 的 设计 。 举 例 来 说 ， 为 了 城 少 进程 数目 ， 程 
序 可 以 使 用 select 管 理 所 有 描述 符 ， 而 不 必 调 用 fork。 该 设计 的 问 
题 在 于 代码 复杂 性 增长 。 尽 管 使 用 select 可 以 很 容易 地 检测 所 有 摘 
述 符 的 可 访问 条 件 ， 我 们 却 不 得 不 维护 从 每 个 描述 符 到 它 的 绑 定 IP 地 
址 的 某 类 映射 (可 能 是 一 个 结构 数组 ，， 这 样 当 从 某 个 套 接 字 读 入 一 
个 数据 报时 ， 我 们 能 够 显示 它 的 目的 IP 地 址 。 为 每 个 操作 或 搬 述 符 使 
用 单独 的 进程 或 线程 往往 比 由 单个 进程 多 路 处 理 多 个 不 同 的 操作 或 描 
述 符 来 得 简单 。 


227 ”并 发 UDP 服务 器 


大 多 数 UDP 服 务 器 程序 是 迭代 运行 的 ， 服 务 器 等 街 一 个 客户 请 
求 ， 读 入 这 个 请 求 ， 处 理 这 个 请 求 ， 送 回 其 应 答 ， 接 着 等 竺 下 一 个 客 
户 请 求 。 然 而 当 客 户 请 求 的 处 理 需 耗 用 过 长 时 间 时 ， 我 们 期 望 UDP 服 
务 器 程序 具有 茶 种 形式 的 并 发 性 。 


“过 长 时 间 ? 有 是 指 另 一 个 客户 因 服务 部 正在 服务 当前 客户 而 被 迫 等 
待 的 被 认为 是 太 长 的 时 间 。 举 例 来 说 ， 如 果 两 个 客户 请 求 在 10ms 内 相 
继 到 达 ， 而 且 每 个 客户 的 平均 服务 时 间 为 5 秒 钟 ， 那 么 第 二 个 客户 不 得 
2 PD MoHIuES TUS SeMSBUUUSTUUU BUS 
Ui o 


612 


对 于 TCP 服 务 器 ， 并 发 处 理 只 是 简单 地 fork 一 个 新 的 子 进程 (或 
者 创建 一 个 新 的 线程 ， 见 第 26 章 ) ， 并 让 子 进 程 处 理 新 的 客户 。 当 使 
用 TCP 时 ， 服 务 右 的 并 发 处 理 得 以 简化 的 根源 在 于 每 个 客户 连接 部 古 
唯一 的 : 标识 每 个 客户 连接 的 是 唯一 的 TCP 均 接 字 对 。 然 而 对 于 
UDP， 我 们 必须 应 对 两 种 不 同类 型 的 服务 器 。 


(1) 第 一 种 UDP 服务 万 比较 商 单 ， 读 入 一 个 客户 请 求 并 发 送 一 个 应 
答 后 ， 与 这 个 客户 就 不 再 相关 了 。 这 种 情形 下 ， 读 入 客户 请 求 的 服务 
絮 可 以 fork 一 个 子 进程 并 让 子 进 程 去 处 理 该 请 求 。 该 “请 求 ”( 即 请 求 
数据 报 的 内 容 以 及 含有 客户 协议 地 址 的 套 接 字 地 址 结构 ) 通过 由 fork 
a Deine erect SUE 


(2) 3 —FHUDPIR A d — J^ LME MAGIK © (Allie PF RELAY) 
ARS aima SAAR E BU — PARP Jed Alig NAA ACIS TOR 
的 第 一 个 数据 报到 这 个 端口 ， 但 是 服务 器 如 何 区 分 这 是 来 目 该 客户 同 
一 个 请 求 的 后 续 数 据 报 还 是 来 目 其 他 客户 请 求 的 数据 报 呢 ? 这 个 问题 
典型 的 解决 办 法 是 让 服务 亏 为 每 个 客户 创建 一 个 新 的 套 接 字 ， 在 其 上 
bind 一 个 临时 端口 ， 然 后 使 用 该 套 接 字 发 送 对 该 客户 的 所 有 应 答 。 这 


PINE BORE PE ARS a ^0 MG PA ig OS, HEN TAY 
后 续 数 据 报 发 送 到 该 端口 。 


第 二 种 类 型 UDP 服务 器 的 一 个 例子 是 TFTP。 使 用 TFTP 传 送 一 个 
文件 通常 需要 许多 数据 报 (REET, BURFI) ， 因 为 该 协 
议 发 送 的 每 个 数据 报 只 有 512 字 节 的 数据 。 客 户 往 服务 器 的 众所周知 端 
O (69) 发 送 一 个 数据 报 ， 指 定 要 发 送 或 接收 的 文件 。 服 务 器 读 入 该 
请 求 ， 但 是 从 另外 一 个 由 它 创 建 并 绑 定 某 个 临时 端口 的 套 接 字 发 送 它 
的 应 答 。 客 户 和 服务 器 之 间 传 送 该 文件 的 所 有 后 续 数 据 报 都 使 用 这 个 
新 的 套 接 字 。 这 人 么 做 允许 主 TFTP 服 务 器 在 文件 传送 发 生 的 同时 (可 能 
持续 数秒 钟 甚至 数 分 钟 ) 继续 处 理 到 达 端 口 69 的 其 他 客户 请 求 。 


对 于 一 个 独立 的 TFTP 服 务 器 〈 即 不 是 由 inetd 激 发 ) ， 我 们 有 
22-19 所 示 的 情形 。 我 们 假设 子 进程 捆绑 到 新 套 接 字 上 的 临时 端口 是 
2134 。 
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图 22-19 ”独立 运行 的 UDP 并 发 服务 器 所 涉及 步 又 


对 于 由 inetd 激 活 的 TFTP 服 务 恬 ， 其 情形 涉及 丸 外 一 个 步骤 。 回 
顾 图 13-6， 我 们 知道 大 多 数 UDP 服务 器 把 inetd 配 置 文本 行 中 的 wai 
jag 字 段 指定 为 wait。 我 们 在 图 13-10 之 后 的 叙述 中 说 过 ， 该 值 导致 
inetd 俘 止 在 相应 确 接 字 上 选择 可 访问 条 件 ， 直 到 相应 子 进程 终止 为 
止 ， 从 而 允许 该 子 进程 读 入 到 达 该 套 接 字 的 数据 报 。 图 22-20 展 示 了 本 
情形 涉及 的 步骤 o 
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图 22-20 ”由 inetd 激 发 的 UDP 并 发 服务 器 所 涉及 步骤 
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自 成 ijnetd 子 进程 的 TFTP 服 务 器 调用 recvfrom 读 入 客户 请 求 ， 
然后 fork 一 个 自己 的 子 进程 ， 并 由 该 子 进程 处 理 该 客户 请 求 。TFTP 
服务 器 随后 调用 exit， 以 便 给 inetd 发 送 SIGCHLD 信 和 号， 告知 
inetd 重 新 在 绑 定 UDP 端口 69 的 套 接 字 上 select 可 访问 条 件 o 
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22.8 IPv64)2H fe S 

IPv6 人 允许 应 用 进程 为 每 个 外 出 数据 报 指定 最 多 5 条 信息 : 

(1) 源 IPv6 地 址 ; 

(2) 外 出 接口 索引 ; 

(3) 外 出 跳 限 ; 

(4) 下 一 跳 地 址 ; 

(5) 外 出 流通 类 别 。 

这 些 信 息 会 作为 辅助 数据 使 用 sendmsg 发 送 。 它 们 还 有 对 应 的 套 
接 字 笑 附 选项 ， 用 于 对 所 发 送 的 每 个 分 组 隐 式 指定 这 些 信 息 (27.7 
TJ) 。JIPv6 还 允许 为 每 个 接收 分 组 返回 4 条 类 似 的 信息 ， 它 们 同样 作为 
辅助 数据 由 recvmsg 返 回 : 

(1) 目的 IPv6 地 址 ; 

(2) BARE AGI; 

(3) SIXA BEER ; 

(4) 到 达 流 通 类 别 。 

图 22-21 总 结 了 我 们 稍 后 讨论 的 这 些 辅助 数据 的 内 容 。 


emsghdr{} 


IPPROTO IPV6é cmsg level  |IPPROTO IPV6 


cmsg type IPV6 PKTINFO cmsg type | iPV6 HOPLIMIT 
IPv63t Af. 
in6_pktinfo{} 
PER | 
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cmsg len 40 cmag len i6 


cmsq level IPPROTO_IPV6 
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cmsg type IPV6 TCLASS 
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图 22-21 ”IPv6 分 组 信息 的 辅助 数据 
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in6_pktinfo 结 构 对 于 外 出 数据 报 含 有 源 IPv6 地 址 和 外 出 接口 索 
引 ， 对 于 接收 数据 报 含 有 目的 IPv6 地 址 和 到 达 接 口 索 引 。 


struct in6 pktinfo { 
struct in6 addr ipi6 addr; /* src/dst IPv6 address */ 


int ipi6 ifindex; /* send/recv interface index */ 


}; 


该 结构 定义 在 <netinet/in.h> 头 文件 中 。 包 含 本 辅助 数据 的 
cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 IPPROTO_IPV6， 
cmsg_type 成 员 将 是 TPV6_PKTINFO， 数 据 的 第 一 个 字 节 将 是 
in6_pktinfo 结 构 的 第 一 个 字 节 。 在 图 22-21 的 例子 中 ， 我 们 假设 
cmsghdr 结 构 和 数据 之 间 没 有 填充 字 方 ， 并 且 一 个 整数 的 大 小 为 4 个 
FT o 


这 些 信 息 有 两 个 指定 途径 : 如 果 针 对 单个 数据 报 ， 那 就 作为 辅助 
数据 指定 为 调用 sendmsg 的 控制 信息 ; 如 果 针 对 通过 某 个 套 接 字 发 送 
的 所 有 数据 报 ， 那 就 作为 一 个 in6_pktinfo 结 构 的 选项 值 设 置 
IPV6_PKTINF0 和 套 接 字 选 项 。 这 些 信 息 由 recvmsg 作 为 辅助 数据 返回 
的 前 提 是 应 用 进程 已 经 开启 IPV6_RECVPKTINF0 套 接 字 选项 。 


22.8.1 ”外 出 和 a 到达 接 口 


正如 18.6 节 所 述 ，IPv6 节 点 的 接口 由 正 值 整数 标识 。 任 何 接口 都 
不 会 被 赋予 0 值 索引 。 指 定 外 出 接口 时 ， 如 果 ipi6_ifindex 成 员 值 
为 0， 那 就 由 内 核 选 择 外 出 接口 。 如 果 应 用 进程 为 某 个 多 播 数 据 报 指定 
了 外 出 接口 ， 那 么 单 就 这 个 数据 报 而 言 ， 由 辅助 数据 指定 的 接口 将 履 
写 由 IPV6_MULTICAST_IF 套 接 字 选项 指定 的 任意 接口 。 


22.8.2 ” 源 和 目的 IPv6 地 址 


源 IPv6 地 址 通常 通过 调用 bind 指 定 。 不 过 连同 数据 一 起 指定 源 地 
址 可 能 并 不 需要 多 少 开 销 。 后 者 还 允许 服务 器 确保 所 发 送 应 答 的 源 地 
址 等 于 相应 客户 请 求 的 目的 地 址 ， 这 是 一 个 某 些 客户 需要 且 IPv4 叉 难 
以 提供 的 特性 (习题 22.4) 。 


当 作为 辅助 数据 指定 源 IPv6 地 址 时 ， 如 果 in6_pktinfo 结 构 的 
ipi6_addr 成 员 是 IN6ADDR_ANY_INIT， 那 么 ，(a) 如 果 该 套 接 字 
上 已 经 绑 定 某 个 地 址 ， 那 就 把 它 用 作 源 地 址 ; 或 者 O) 如 果 该 套 接 字 
上 未 绑 定 任何 地 址 ， 那 惑 由 内 核 选择 源 地 址 。 否 则 ， 如 有 果 ipi6_addr 
成 员 不 是 这 个 非 确定 地 址 ， 不 过 该 套 接 字 上 已 经 绑 定 某 个 源 地 址 ， 那 
么 单 就 本 次 输出 操作 而 言 ，ipi6_addr 值 将 覆 写 已 经 绑 定 的 源 地 址 。 
内 核 将 验证 所 请 求 的 源 地 址 确实 是 赋予 本 节点 的 某 个 单 播 地 址 。 


当 in6_pktinfo 结 构 由 recvmsg 作 为 辅助 数据 返回 时 ， 其 
ipi6_addr 成 员 含有 取 自 所 接收 分 组 的 目的 IPv6 地 址 。 这 一 点 在 概念 
上 类 似 IPv4 的 IP_RECVDSTADDR 套 接 字 选项 。 
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22.8.3 “指定 和 接收 跳 限 


对 于 单 播 数据 报 ， 外 出 跳 限 通常 使 用 IPV6_UNICAST_HOPS 套 接 
字 选 项 指定 (7.8 节 ) ; 对 于 多 播 数据 报 ， 外 出 跳 限 通常 使 用 
IPV6_MULTICAST_HOPS 套 接 字 选项 指定 (21.677) 。 不 论 日 的 地 为 
单 播 地 址 还 是 多 播 地 址 ， 作 为 辅助 数据 指定 跳 限 却 允许 我 们 单 就 某 次 
输出 操作 覆 写 内 核 的 默认 值 或 早先 指定 的 普 适 值 。 对 于 诸如 
traceroute 之 类 的 程序 以 及 需 验证 接收 跳 限 为 255 (表示 分 组 未 被 转 
发 过 ) 的 一 类 IPv6 应 用 程序 来 说 ， 返 回 接收 跳 限 是 有 用 的 。 


接收 跳 限 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 经 开 
局 IPV6_RECVHOPLIMIT 套 接 字 人选 项。 包含 本 辅助 数据 鸭 cmsghdr 结 
构 中 ，cmsg_level 成 员 将 是 TPPROTO_IPV6，cmsg_type 成 员 将 
是 IPV6_HOPLIMIT， 数 据 的 第 一 个 字 节 将 是 4 字 广 整数 跳 限 的 第 一 个 
字 节 。 我 们 在 图 22-21 中 展示 了 该 结构 。 需 留意 的 是 ， 作 为 辅助 数据 返 
回 的 值 是 来 自 所 接收 数据 报 的 真实 值 ， 而 由 getsockopt 返 回 的 
IPV6_UNICAST_HOPS 套 接 字 选项 值 是 内 核 将 用 于 相应 套 接 字 上 所 有 
外 出 数据 报 中 的 默认 值 。 


要 控制 给 定 分 组 的 外 出 跳 限 ， 只 要 把 控制 信息 指定 为 Sendmsg 的 
eee ( 含 ) ， 若 为 -1 则 告知 内 核 使 用 
默认 值 。 


跳 限 没 有 包含 在 ijn6_pktinfo 结 构 中 的 原因 如 下 : 一 些 UDP 服 
务 器 希望 以 这 样 的 方式 来 响应 客户 请 求 ， 即 从 相应 请 求 的 接收 接口 发 
送 应 答 ， 而 且 所 用 IPV6 源 地 址 就 是 相应 请 求 的 IPv6 目 的 地 址 。 为 了 做 
到 这 一 点 ， 应 用 进程 可 以 只 开启 ITPV6_RECVPKTINFO0 套 接 字 选项 ， 
然后 把 来 目 recvmsg 的 接收 控制 信息 用 作 sendmsg 的 外 出 控制 信息 。 
应 用 进程 根本 不 必 检 查 或 修改 in6_pktinfo 结 构 。 然 而 要 是 跳 限 包 
含 在 该 结构 中 ， 那 么 应 用 进程 将 不 得 不 分 析 接收 控制 信息 并 修改 跳 限 
成 员 ， 因 为 接收 跳 限 并 不 是 外 出 分 组 期 望 的 跳 限 值 。 


22.8.4 ”指定 下 一 跳 地 址 


IPV6_NEXTHOP 辅 助 数据 对 象 将 数据 报 的 下 一 跳 指定 为 一 个 套 接 
字 地 址 结构 。 在 包含 本 辅助 数据 的 cmsghdr 结 构 中 ，cmsg_level 成 


员 是 IPPROTO_IPV6，cmsg_type 成 员 是 IPV6_NEXTHOP， 数 据 的 
第 一 字 节 是 套 接 字 地 址 结构 的 第 一 个 字 节 。 


我 们 在 图 22-21 中 展示 了 本 辅助 数据 对 和 象 的 一 个 例子 ， 其 中 假设 套 
接 字 地 址 结构 是 28 字 节 的 sockaddr_in6 结 构 。 本 例 中 由 下 一 跳 地 址 
标识 的 节点 必须 是 发 送 主机 的 一 个 邻 届 。 如 果 该 地 址 等 于 数据 报 的 目 
的 IPv6 地 址 ， 那 么 相当 于 已 有 的 S0_DONTROUTE 套 接 字 选项 。 下 一 跳 
地 址 也 可 以 针对 通过 某 个 套 接 字 发 送 的 所 有 数据 报 设置 ， 途 径 是 以 一 
个 sockaddr_in6 结 构 作 为 选项 值 设 置 TPV6_NEXTHOP 套 接 字 选项 。 
设置 本 选项 需要 超级 用 户 权限 。 
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22.8.5 “指定 和 接收 流通 类 别 


IPV6_TCLASS 辅 助 数据 对 象 指定 数据 报 的 流通 类 别 。 在 包含 本 
辅助 数据 的 cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 
IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_TCLASS， 数 据 的 第 一 
个 字 刷 将 是 4 字 贡 整数 流通 类 别 的 第 一 个 字 节 。 我 们 在 图 22-21 中 展示 
了 该 结构 。 正 如 A.3 节 所 述 ， 流 通 类 别 由 DSCP 和 ECN 两 个 字段 构成 。 
它们 必须 一 起 设置 。 如 果 内 核 有 必要 控制 这 些 值 ， 它 就 屏蔽 或 忽略 用 
户 指定 的 值 ( 壁 如 说 如 果 内 核实 现 了 ECN， 它 可 能 就 不 顾 应 用 进程 通 
过 IPV6_TCLASS 套 接 字 选项 设置 的 2 位 ECN 值 而 自行 设置 ECN) 。 流 
通 类 别 的 正常 值 在 0~255 之 间 〈 含 ) ， 若 为 -1 则 告知 内 核 使 用 默认 值 。 


如 果 为 某 个 给 定 分 组 指定 流通 类 别 ， 那 么 只 需 包含 辅助 数据 ， 如 
果 为 通过 某 个 套 接 字 的 所 有 分 组 指定 流通 类 别 ， 那 就 以 一 个 整数 选项 
值 设置 ITIPV6_TCLASS 套 接 字 选项 ， 如 27.7 节 所 述 。 接 收 流 通 类 别 由 
recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 开启 
IPV6_RECVTCLASS 套 接 字 选项 。 


22.9 IPv6 路 径 MTU 控 制 


IPV6 为 应 用 程序 提供 了 若干 路 径 MTU 发 现 控 制 手 段 (2.1177) ° 
上 默认 设置 对 于 绝 大 多 数 应 用 程序 是 合适 的 ， 不 过 特殊 目的 程序 可 能 想 
要 更 改 路 径 MTU 发 现行 为 。IPv6 为 此 提供 了 4 个 套 接 字 选 项 。 


22.9.1 ”以 最 小 MTU 发 送 


执行 路 径 MTU 发 现时 ，IP 数 据 报 通常 按照 外 出 接口 的 MTU 或 路 径 
MTU 二 者 中 较 小 者 进行 分 片 。IPv6 定 义 了 值 为 1280 字 节 的 最 小 MTU 
所 有 链 路 都 必须 支持 。 按 照 这 个 最 小 MTU 进 行 分 片 可 能 形 失 一 些 发 送 
较 大 分 组 的 机 会 ， 不 过 避免 了 路 径 MTU 发 现 的 缺点 (MTU MEEKS 
分 组 丢失 和 数据 发 送 延迟 ) 。 


有 两 种 类 型 的 应 用 程序 可 能 想 要 使 用 最 小 MTU 发 送 分 组 : 一 种 使 
用 多 播 ， 另 一 种 与 多 个 目的 地 简短 地 交互 《譬如 DNS) 。 与 接收 并 处 
理 大 量 ICMP“packet too big” 消 恩 所 付 代价 相 比 ， 为 多 播 会 话 发 现 MTU 
显得 并 不 重要 。 诸 如 DNS 之 类 应 用 程序 通 汕 不 与 单个 服务 硕 频 繁 地 通 
信 ， 使 得 冒 路 径 MTU 发 现 的 分 组 丢失 之 险 难 见 所 值 。 


使 用 最 小 MTU 由 IPV6_USE_MIN_MTU 套 接 字 选项 控制 。 该 选项 
有 3 个 已 定义 的 值 : 默认 值 -1 表 示 对 多 播 目 的 地 使 用 最 小 MTU， 对 单 
播 目 的 地 执行 路 径 MTU 发 现 ，0 表 示 对 所 有 目的 地 都 执行 路 径 MTU 人 发 
现 ; 1 表示 对 所 有 目的 地 都 使 用 最 小 MTU。 
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IPV6_USE_MIN_MTU 选 项 值 也 可 以 作为 辅助 数据 发 送 。 包 含 本 
辅助 数据 的 cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 
IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_USE_MIN_MTU， 数 据 
的 第 一 个 字 忆 将 是 4 字 整 数 本 选项 值 的 第 一 个 字 节 。 


22.9.2 ”接收 路 径 MTU 变 动 指示 


应 用 进程 可 以 开启 IPV6_RECVPATHMTU 套 接 字 选项 以 接收 路 径 
MTU 变 动 通知 。 本 标志 值 使 得 任何 时 候 路 径 MTU 发 生变 动 时 作为 辅助 
数据 由 recvmsg 返 回 变动 后 的 路 径 MTU。 由 recvmsg 这 样 返回 的 数 
据 报 长 度 可 能 为 0， 不 过 含有 指示 路 径 MTU 的 辅助 数据 。 包 含 本 辅助 
数据 的 cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 TPPROTO_IPV6， 
cmsg_type 成 员 将 是 IPV6_PATHMTU， 数 据 的 第 一 个 字 节 将 是 一 个 
ip6_mtuinfo 结 构 的 第 一 个 字 节 。 该 结构 含有 路 径 MTU 发 生变 动 的 
目 D TOMUS al 定义 在 <netinet/in.h> 
头 文件 中 。 


struct ip6_mtuinfo { 
struct sockaddr in6 ip addr; /* destination address */ 


uint32 t ip mtu; /* path MTU in host byte 
order */ 


H 


22.9.3 ”确定 当前 路 径 MTU 


如 果 一 个 应 用 进程 并 没有 使 用 IPV6_RECVPATHMTU 套 接 字 选项 
一 直 在 跟踪 路 径 MTU 的 变动 ， 那 么 可 以 使 用 IPV6_PATHMTU 套 接 字 选 
项 确定 某 个 已 连接 套 接 字 的 当前 路 径 MTU。 这 是 一 个 只 能 获取 的 选 
项 ， 作 为 选项 值 的 jp6_mtuinfo 结 构 (UE) 含有 当前 路 径 MTU ° 
A coment 那 就 返回 外 出 接口 的 MTU。 返 回 的 地 址 值 没 
定义 。 


22.9.4 ATF 


默认 情况 下 IPv6 协 议 栈 将 按照 路 径 MTU 对 外 出 IP 数 据 报 执行 分 
片 。 诸 如 traceroute 之 类 程序 可 能 不 希望 有 这 种 目 动 分 片 特性 ， 而 
是 自行 发 现 路 径 MTU。IPV6_DONTFRAG 套 接 字 选项 用 于 关闭 自动 分 
B 其 值 为 0 (默认 值 ) 表示 人 允许 自动 分 片 ， 为 1 则 关闭 自动 分 


天 闭 目 动 分 片 后， 提供 需要 分 片 的 分 组 的 send 调 用 可 以 返回 
EMSGSIZE 错 误 ， 不 过 实现 并 非 必须 提供 这 种 错误 指示 。 确 定 某 个 分 


组 是 否 需 要 分 片 的 唯一 确实 有 效 的 方法 是 使 用 IPV6_RECVPATHMTU 
T BY YI 。 


IPV6_DONTFRAG 选 项 值 也 可 以 作为 辅助 数据 发 送 。 包 含 本 辅助 
数据 的 cmsghdr 结 构 中 ，cmsg_level1 成 员 将 是 IPPROTO_IPV6， 
cmsg_type 成 员 将 是 IPV6_DONTFRAG， 数 据 的 第 一 个 字 节 将 是 4 字 
节 整 数 本 选项 值 的 第 一 个 字 节 。 
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22.10 小结 


有 些 应 用 程序 需要 知道 某 个 UDP 数据 报 的 目的 IPv4 地 址 和 接收 接 
口 。 开 启 IP_RECVDSTADDR 和 IP_RECVIF 套 接 字 选项 可 以 作为 辅助 
数据 随 每 个 数据 报 返回 这 些 信 息 。 对 于 IPv6 套 接 字 ， 类 似 IPv4 的 信息 
以 及 接收 跳 限 和 接收 流通 类 别 可 以 通过 开启 IPV6_RECVPKTINFO、 
IPV6 RECVHOP- LIMIT 或 TPV6_RECVTCLASS 套 接 字 选项 返回 。 


尽管 UDP 无 法 提供 TCP 提 供 的 众多 特性 ， 需 要 使 用 UDP 的 场合 依 
然 不 少 。 广 播 或 多 播 应 用 必须 使 用 UDP。 人 稍 单 的 请 求 一 应 答 情形 也 可 
以 使 用 UDP， 不 过 必须 在 应 用 程序 中 增加 某 种 形式 的 可 靠 性 。UDP 不 
应 该 用 于 海量 数据 的 传送 。 


通过 使 用 超时 和 重 传 机 制 检 测 丢 失 分 组 ， 我 们 在 22.5 广 增加 了 
UDP 回 射 客户 程序 的 可 靠 性 。 通 过 给 每 个 分 组 增加 一 个 时 间 惟 并 追踪 
RTT 及 其 平均 偏差 这 2 个 售 算 因 子 ， 我 们 在 动态 地 修改 重 传 超时 值 。 我 
们 还 给 每 个 分 组 增加 一 个 序列 号 以 验证 某 个 给 定 应 答 古 期 望 的 应 管 。 
ere 不 过 这 是 UDP 所 能 文 持 的 应 用 

予 类 型 。 


习题 
22.1 在 图 22-18 中 为 什么 有 两 次 printf 调 用 ? 
222 dg send recv (图 22-8 和 图 22-9) 能 否 返 回 0? 


223 ”重新 编写 dg_send_recv， 改 用 select 及 其 定时 器 取代 
alarm ` SIGALRM、sigsetjmp 和 siglongjmp。 


22.4 ”IPv4 服 务 器 如 何 保 证 所 发 送 应 答 的 源 地 址 等 于 相应 客户 请 
求 的 目的 地 址 〈 类 似 由 IPV6_PKTINF0O 套 接 字 选项 提供 的 功能 ) ? 


225 ”图 22-6 中 的 main 函 数 是 IPv4 协 议 相 关 的 ， 把 它 改写 成 协议 
无 关 的 版 本 。 要 求 用 户 指定 一 个 或 两 个 命令 行 参 数 ， 第 一 个 是 可 选 的 
IP 地 址 〈 璧 如 0.0.0.0 或 0::0) ， 第 二 个 是 必需 的 端口 号 。 接 着 调用 
udp_client 获 取 套 接 字 地 址 结构 的 地 址 族 、 端 口号 和 长 度 。 既 然 
udp_client 并 没有 给 getaddrinfo 指 定 AI_PASSIVE 暗 示 信 息 ， 
如 果 像 建议 的 那样 不 指定 hostname 参 数 就 调用 udp_client， 将 会 
发 生 什么 ? 


22.6 更改 相关 RTT 函 数 以 输出 每 个 RTT， 然 后 对 跨 因 特 网 的 标准 
echo 服 务 絮 运行 图 22-6 所 在 的 客户 程序 。 修 改 dg_send_recv 函 数 以 
输出 每 个 收 到 的 序列 号 。 伴 随 RTT 及 其 平均 偏差 这 2 个 估算 因子 绘 出 结 
果 RTT 的 动态 变化 。 
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Q@ 图 22-9 中 存在 一 个 非 致 命 的 竞争 状态 如 果 SIGALRM 是 在 某 个 成 功 
的 recvmsg 调 用 之 后 的 第 59 行 和 第 60 行 之 间 递 交 ， 那 么 它 将 导致 一 次 
非 必 要 的 重 传 。 一 一 译 者 注 


第 23 章 ”高 级 SCTP 套 接 字 编 程 


23.1 ut 


我 们 将 在 本 章 较 深 入 地 讨论 SCTP， 查 看 SCTP 提 供 的 更 多 特性 和 
套 接 字 选 项 。 我 们 将 讨论 多 个 论题 ， 包 括 故障 检测 的 控制 、 无 序 的 数 
据 以 及 通知 。 本 章 通 章 提供 了 多 个 代码 例子 ， 以 展示 如 何 使 用 SCTP 的 
某 些 高 级 特性 。 


SCTP 是 一 个 面 回 消息 的 协议 ， 递 送 给 用 户 的 是 部 分 的 或 完整 的 消 
息 。 部 分 消息 的 递送 前 提 是 应 用 进程 选择 向 对 端 发 送 大 消息 (如 大 于 
BRR KEK) 。 部 分 消息 被 递送 给 应 用 进程 之 后 ， 多 个 部 
分 消息 组 合成 单个 完整 消息 并 不 由 SCTP 负 责 。 在 应 用 进程 看 来 ， 一 个 
消息 既 可 以 由 单个 输入 操作 接收 ， 也 可 以 由 知 干 个 相继 的 输入 操作 接 
puc en ees rene 
Beare aa, 


SCTPHRA an ter BER LAOST, tea ASF AGS TT, XBR py 
用 程序 开发 人 员 选 取 的 套 接 字 式样 。SCTP 还 提供 了 从 一 到 多 式 套 接 字 
抽取 某 个 关联 并 使 其 成 为 一 到 一 式 套 接 字 的 方法 。 本 方法 允许 构造 既 
可 和 迭代 运行 又 可 并 发 运行 的 服务 规程 序 。 


23.2 目 动 关闭 的 一 到 多 式 服务 器 程序 


回顾 我 们 在 第 10 章 中 编写 的 服务 器 程序 ， 它 不 保持 任何 关联 状 
态 ， 因 为 它 依赖 客户 程序 关闭 关联 。 依 赖 客户 关闭 关联 存在 这 样 的 弱 
A: 要 是 客户 打开 一 个 关联 后 从 不 发 送 任何 数据 ， 将 发 生 什 么 ? 服务 
右 不 得 不 将 资源 分 配给 从 不 使 用 这 些 资 源 的 客户 。 人 懒惰 的 客户 会 无 意 
中 造成 对 于 SCTP 实 现 的 拒绝 服务 攻击 。 为 了 避免 这 个 问题 ，SCTP 增 
设 了 自动 关闭 (autoclosing) 特性 。 
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自动 关闭 允许 SCTP 端 点 指定 某 个 关联 可 以 保持 空闲 的 最 大 秒 名 
数 。 关 联 在 任何 方向 上 都 没有 用 户 数据 在 传送 时 就 认为 它 是 空闲 的 。 
如果 关联 的 空闲 时 间 超过 它 的 最 大 允许 时 间 ， 该 关联 就 由 SCTP 实 现 和 
动 关闭 。 


使 用 自动 关闭 套 接 字 选项 应 该 仔细 选择 其 值 。 若 服务 器 选择 太 小 
的 值 ， 它 可 能 会 发 现 自己 是 在 已 经 关闭 的 关联 上 发 送 数 据 。 重 新 打开 
关联 以 便 向 客户 发 送 回 数据 需要 额外 开销 ， 更 何况 客户 不 大 可 能 已 经 
调用 过 1isten 以 允许 外 来 关联 。 图 23-1 是 第 10 章 中 服务 器 程序 的 修订 
版 本 ， 其 中 揪 入 必要 的 调用 以 避免 出 现 长 期 空 了 的 关联 。 正 如 7.10 和 
所 述 ， 自 动 关闭 特性 默认 是 禁止 的 ， 其 开启 必须 显 式 使 用 
SCTP_AUTOCLOSE 套 接 字 选 项 。 


seipy/sctoservi4.c 


14 if (argc == 2; 
15 stream increment - stoi(argv:1]!; 
16 sock_=c = zocket(AF INET, SOCK_SEQPACKET, IPEROTO SCIT|; 
17 close time - 120; 
18 Set sockopt (sock fd, IPSROTO SCTE, SCOTS AUTOCLOSE, 
19 uclcse time. sízeoficlose time;); 
0 bzero(&servacdr. sizeof 'servaddr!) 
addr .sin fsmi-y = AF INET 


scrvaddrz.sin port = Atons{SERV_CORT) ; 
sclp/sclpserv04.c 


图 23-1 开启 自动 关闭 特性 的 服务 器 程序 


设置 自动 关闭 选项 


17-19 选择 120 秒 钟 为 空闲 关联 目 动 关 闭 时 间 ， 并 将 该 值 置 于 变 
量 close_time 中 。 接 着 调用 setsockopt 套 接 字 选项 配置 该 自动 关 
闭 时 间 。 其 余 代码 保持 不 变 。 


现在 SCTP 将 目 动 天 闭 空间 时 间 超 过 两 分 钟 的 关联。 通过 这 种 目 动 
强制 关闭 关联 的 方法 ， 我 们 减少 了 懒惰 客户 的 资源 请 耗 。 


23.3 ”部 分 递送 


当 应 用 进程 要 求 SCTP 传 输 过 大 的 消息 时 ，SCTP 可 能 采取 部 分 递 
送 措施 ， 这 里 “过 大 ”意味 着 SCTP 栈 认为 没有 足够 的 资源 专用 于 这 样 的 
消息 。 接 收 端 SCTP 实 现 开 局 本 API 需 要 考虑 以 下 几 点 。 
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。 所 接收 消 恩 的 缓冲 区 空间 耗 用 量 必 须 满足 或 超过 某 个 | 门槛 。 

。 SCTP 栈 最 多 只 能 从 该 消息 开始 处 顺序 递送 到 首 个 缺失 断 片 。 

。 一 旦 激发 ， 其 他 消 妃 必须 等 到 当前 消息 已 被 完整 地 接收 并 递送 给 
接收 端 应 用 进程 之 后 才能 被 递送 。 也 束 是 说 过 大 的 消 忆 会 阻塞 通 

常情 况 下 可 以 递送 的 所 有 其 他 消 恩 的 递送 ， 包 括 其 他 流 中 的 消 
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SCTP 的 KAME 实 现 使 用 的 门槛 是 套 接 字 接 收 缓冲 区 的 一 半 大 小 。 
编写 本 书 时 这 个 SCTP 栈 的 默认 接收 缓冲 区 大 小 为 131072 字 节 。 因 此 要 
是 不 修改 SO0_RCVBUF 套 接 字 选项 值 ， 单 个 消息 必须 超过 65536 字 太 才 
会 激 起 部 分 递送 API。 为 了 把 10.2 闻 给 出 的 服务 器 程序 改 为 使 用 部 分 圳 
送 ， 我 们 先 编写 一 个 包 庄 sctp_recvmsg 函 数 调 用 的 实用 函数 ， 再 创 
建 使 用 这 个 新 函数 的 改进 服务 器 。 图 23-2 给 出 了 处 理 部 分 递送 API 的 
sctp recvmsg/P&ERZN ° 


telp/tcip_pdapirev.c 
1 #include "unp.h" 


2 static uint8 t *setp pdspi readcuf-NULL: 
3 static int sctp pdapi r2buf $2-2; 


4 uint& t # 

5 pi rezvrsciin- sock fd, 

6 ink ^rdlen, 

3 SA *from, 

8 int *from len, ctrust ectp_endrevirtc teri, int *moc flags) 
9 | 

10 int. rdaz,left,at in lif; 

li int frrien-o: 

l2 if (sctp_pdapi_readbuf == NULL; { 

1s sctp pdapi readbuf = (uinz8 t */Mallcc(SCT? PDAPI INCRE 22); 
14 sctp pdapi rdbuf sz = SCT? PDAPI INCR 5:2; 

15 } 

16 at in but - 

7 Setp_recvmaq(sock_fc, sctp pdapi rsadbuf, sczp pdepi rdzuf sz, Erom, 
18 from len, sri, msg flags; 

19 ifiat_in buf < ih{ 

20 *rdler - at in bus; 

21 rcturr. (NULL! ; 

22 j 

23 while((*umsc flags & MSG EIR) == 0) ( 

44 left = ectp pdapi rabuf ez - at in buf; 

25 itf(lef-z < DCTP PDAPI NEED MORE THRESHOLD) ( 

26 sctp pdapi readbu= = 

2 了 reallocisctp pdapi reedbu^, 

28 sctp pdapi rdout sz + SCIP PDAFI INCR SZ); 
29 if (sctp_pdapi_readbuf == NULL; [ 

30 err quití"sctp pdapi ran out of memory") ; 

31 ) 

32 sczp pdapí rdbuf sz +- SCTP PDAPI INCR SZ; 

33 left = sctp pdapi r3bof oz - at in bof; 

34 } 

a^ rdsz = Scrp recwmsg(scck fd, wsctp pdapi readbuf[st ir ruf], 
36 left, NULL, Efrmler, NULL, meg flags;; 
7 at in buf += rdsz; 

38 j 

a9 ^rdien = «ab dn buf; 

30 return(scts pdapi readbu:): 

41] 


felipiseip edapirov.c 


图 23-2 ”处 理 部 分 递送 API 
准备 缓冲 区 


12-15 ”如果 由 全 局 静 仿 指针 指 癌 的 接收 缓冲 区 尚未 分 配 ， 那 束 
动态 分 配 其 空间 并 设置 与 它 关 联 的 状态 。 


读 入 消息 


16-18 调用 sctp_recvmsg 读 入 消息 ， 它 可 能 是 某 个 消息 的 第 
AN 
METH ° 


处 理 读 入 错误 


19-22 如 果 sctp_recvmsg 返 回 错误 或 EOF， 那 就 直接 返回 到 
调用 者 。 


本 消息 还 有 其 余 断 片 

23-24 如 果 消 息 标志 表明 sctp_recvmsg 收 取 的 不 是 一 个 完整 
那 束 继续 收集 其 余 断 片 。 画 数 首先 要 计算 接收 缓冲 区 中 剩余 
J 空间 。 
检查 是 否 需 要 增长 缓冲 区 

25-34 当 接 收 缓冲 区 中 剩余 的 空间 小 于 某 个 最 小 量 时 ， 调 用 
realloc 函 数 增长 绥 冲 区 的 大 小 。 新 的 绥 冲 区 大 小 是 当前 大 小 加 上 一 
个 增长 量 。 如 果 realloc 调 用 失败 ， 那 就 显示 一 个 出 错 消息 并 退出 。 
接收 其 余 断 片 

35-36 调用 sctp_recvmsg 读 入 本 消息 其 余 断 片 。 
前 向 移动 索引 


37-38 ”增加 缓冲 区 索引 ， 循 环 回去 测试 是 否 已 经 读 入 本 消息 所 
CLE 


循环 结束 


39-40 ”循环 结束 后 把 恋 入 的 字 市 数 复 制 到 由 调用 者 提供 的 指针 
所 指 的 整数 变量 中 ， 再 返回 指 癌 所 分 配 缓冲 区 的 一 个 指针 。 


图 23-3 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 


scip/sctpservüs.c 


26 fort sa VA 

a? ler. - Gizecf(sctruct sockaddr ini; 

8 bzero(Sori,siscot (sri)}; 

29 readbuf - zdapi zecvmsgi(scck Ed. &rd sz, 

30 (Sh *)j&cliaddr, &len, &sri,&msg flaegs;; 
ai if(rea$buf == NULL; 

32 continuc; 


scip/sctpservü$.c 


图 23-3 ”使 用 部 分 递送 API 的 服务 器 程序 


读 入 消息 


29-30 服务 右 调 用 新 的 部 分 递送 实用 函数 。 服 务 右 会 在 清理 挥 
可 能 占据 sri 变 量 的 旧 数 据 后 调用 该 函数 。 


验证 读 入 非 空 


31-32 ”验证 刚才 的 读 入 是 否 非 空 。 才 为 空 ( 读 入 EOF 或 发 生 错 
Vx) 则 继续 。 


23.4 ”通知 


我 们 已 在 9.14 下 讨论 过 ， 应 用 进程 可 以 预订 7 个 通知 。 到 目前 为 
止 ， 我 们 的 SCTP 程 序 都 名 略 除 新 数据 的 收取 以 外 所 有 可 能 发 生 的 事 
件 。 本 市 的 例子 给 出 如 何 接 收 并 解释 SCTP 通 知事 件 的 概貌 。 图 23-4 给 
出 的 函数 用 于 显示 来 目 SCTP 的 任何 通知 。 我 们 还 把 10.2 节 给 出 的 服务 
如 程序 改 为 预订 所 有 事件 ， 当 收 到 一 个 通知 时 调用 这 个 新 函数 。 注 
意 ， 我 们 的 服务 器 程序 并 没有 把 通知 用 于 任何 特定 的 目的 。 


setp/setp_dispiayvevernts.c 


+ #@incluie *urp.h" 


2 void 

J print notiticaticn(char *notity but} 
4 : 

5 uim actp notification *snp; 

6 struct sc-p asso- change *sac; 
7 struct secip paddr change *spc; 
8 Struct sccp remote error *sre; 

9 strar sc-p send failed *ssf: 

0 struct sc-p shutdown event *sse; 


1L struct scip adzpti2n cvent *ac; 
12 struct sc-p pdepi svent *pdapi: 
13 const char *str: 

14 snp = imion sct notification *;notlfy buf: 
15 &ewztealenp-»en hsader.en type) { 
16 cass OCTP ASCOC CHANCE; 

17 sac = Ssup->sn_assoc_ change; 
18 switch(sac-ssac state) { 

19 case SCTE COMM U2: 

<0 str = "COMMUNICATION UP"; 
2t break ; 


a2 case SOTE COMM LOST: 


str = "COMMUNICATION LOST"; 
break + 
zase SCTU_RZSTART: 
str = "RESTART"; 
break: 
cass SCTP SIUTDOWN COMP; 
str = "SHJTDOWN COMPLETE"; 
break: 
case SCTP CANT STR ASSOC: 
str = "CAN'T START Assoc’; 


break; 
defaul.: 
otr = "UNKNOWN"; 
break: 
} /* end ewitch{sac->sac_ state) */ 


printf {"SCTP_ASSCC CHANSE: %s, aaace=-0xix\n", str, 
iin=32 t)sac-ssac asscc id); 
break; 
tase SCTP FEER ànDR CHANGE: 
ope = «orp-»55 paddr change: 
awiteh(spe-2«ac «tste) | 
cass SCTP_ACDR RVAILAELE: 
Str = "ADDRESS AVAILABLE’; 
break + 
fase SCIP_ALDH_UNKEACHABLE: 
str = "ADDRESS UNREACHABLE”; 
break; 
case SCTP ADDz REMOVED: 
str = "ADDRESS REMOVED": 
break: 
casa SCTP AZDs ACDED: 
etr = "ADDRESS ADL'ED"; 
break; 
vase SCTP ADDR MADE PRIN: 
otr = "ADDRESS MADE PRIMARY" ; 


break + 
default: 

str - "UNKNOWN"; 

break: 
) /* end switch'spe »spc stato] */ 
printf("SCTP PEER ADDR CHANGE: ts, addr-$5, asscc=Oxtx\n", scr, 


E2ck ntop(i8A *j&Gpc »Sp2 aaddrz, síiscofisp2 >apc_aadér)). 
à n-32 t)spc- »*pc aAsscc d d), 
break; 
case SCTP_REMOTE_CRROR: 
sre = &srp-*sn renote error: 
printf ("SCre 4EMUZ.E ERROR: a&2o2eUxtx errorstd\n", 
(zrin-32 t)sre-»sre asscc id, sre-»sre error); 
break; 
case SCTP_SEND PAILED: 
esl = a@enp-ssn wwend [allwd; 
printt("ECTz SENZ FAILED: asoce-0xéx crror-*tc\n", 
(in-32 t)ssT-»388[ asso id, asf-»88f error); 
oreak; 
case SCTP_SDAPTION INDICATION: 
ae = &snp-»sn adaption avent; 
Drintf ("SCTP ADAPCION INDICATION: Oxtx\n", 
(tU dut)am-»sai eadap-iun ind); 


EZ break; 


E2 case SCTP PARTIAL DELIVERY EVENT: 

E3 pdapi = &snp-»sn pdapi event; 

E4 if (pdapi-spdapi_indication == 377? PARTIAL DRLIVSRY ABORTED) 
R5 printf(*SCTP PARTIAL ORLTEVERY_ARORTFD\n") ; 

EG else 

g7 pzincf(*un«nown STR WARTIAL DELIVERY SVENT Ox$&xAn*, 
Eg pdasi-»pdapi -raication):; 

€9 break; 

50 case SCTP SHUTDOWN EVENT: 

9: sse = &snp-»-an shutdown event; 

22 print? (*SCTP_SHUTDOWN_EVENT: assoc-0Ox$x\n", 

c1 [uinr32 t1 |&smP-sN5e ARSC id); 

cd break + 

es default: 

EI print=("Unknown notiticstion event type=Uxtx\n", 

v Benp-»sn heade-.sn type); 

98 } 

99 | 


sotpisetp. dispiavevenms.c 


图 23-4 ”通知 显示 实用 画 数 


类 型 强制 转换 并 进行 跳 转 


14-15 把 存放 通知 的 输入 缓冲 区 类 型 强制 转换 成 整体 性 的 联合 
RH o FORD RA R E 前 用 sn_header 结 构 的 sn_type 成 员 的 
可 能 取 值 进行 跳 转 。 


处 理 关 联 变 动 


16-40 ”如 采 函 数 在 缓冲 区 中 发 现 “ 关 联 改 变 ” 通 知 ， 则 显示 已 发 
生 的 关联 变动 的 类 型 。 


处 理 对 端 地 址 变动 


41-66 ”如 有 果 是 发 现 对 端 地 址 通知 ， 则 显示 经 译 码 的 地 址 事件 和 
变动 后 的 地 址 。 


处 理 远 程 错误 

67-71 如 果 函 数 发 现 远 程 错误 ， 则 显示 该 错误 和 发 生 它 的 关联 
的 ID。 本 函数 不 试图 译 解 并 显示 由 远程 对 端 所 报告 的 真正 错误 。 该 信 
息 可 从 sctp_remote_error 结 构 的 sre_data 成 员 获 得 。 


处 理发 送 失败 


72-76 WFR EN RAS HACK AOA, EAEE 2 HE A 
送 到 对 端 。 这 意味 着 : (a) 关联 正在 关闭 之 中 ， 马 上 就 会 得 到 一 个 关 
联通 知 《如 有 果 还 没有 到 达 的 话 ) ; 或 者 (b) 服务 器 在 使 用 部 分 递送 扩 
展 ， 并 有 一 个 消息 未 成 功 发 送 (由 设置 在 传送 上 的 限制 造成 ，。 待 发 
送 的 数据 实际 上 存放 在 ssf_data 成 员 中 。 


处 理 适 配 层 指示 符 


77~81 ”如果 函数 解码 出 适 配 层 指示 符 ， 则 显示 在 关联 建立 消息 
(INIT 或 INIT-ACK) 中 传递 的 32 位 值 。 


处 理 部 分 递送 事件 


82-89 ”如 果 有 “部 分 递送 ”通知 到 达 ， 则 显示 通知 的 事件 。 目 前 
唯一 的 事件 是 部 分 递送 被 取消 。 
处 理 关联 终止 事件 

90-94 ”如 果 函 数 解码 出 该 通知 ， 则 表示 对 端 已 经 发 出 一 个 雅致 
的 SHUTDOWN 消 已。 到 关联 终止 序列 完成 时 ， 通 常会 得 到 一 个 关联 变 
动 通知 o 

图 23-5 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 


sctp/sctpservü. c 


21 bzero(Sevnts, s-zeof(íevnts:); 

22 "umo, sl p. dat a do een = 1; 

23 evn-s.sctp assccia-ion event = 1; 

24 evn-e.£ctp addrese event = 1; 

25 evnzo,cctp_cend failure event = i; 

26 cvnts.sctp pocr crror cvert = 1; 

27 evn-s.sctp shutdowa event = 1; 

28 ewn-s.sctp part-al delivery event = 1; 

29 em s secip adastieg layer event = 1; 

30 Setsockopt (ssex_fd, IPPROTO SOTE, SCTP_EVENTS, uevnts, sizeo*(evnts)); 
31 Lise-en(sock fd, .ISTENQ): 

32 t (ptd 

33 len = sizeof (struct seckaddr_in!; 

34 rd sz = Sctp_recvmsc(sock_fd, readbuf, sizeofixeadbuf), 

35 (SR *)Ecliaddr, @len, sari, fmisy flags) ; 
36 if Greg flags & MS3 NOTIFICATION) 1 

37 erint notification[readbuf); 

3g continuer 

39 } 


seip/sctpserv06.c 


图 23-5 ”使 用 通知 的 服务 器 程序 


进行 设置 以 接收 通知 
21-30 服务 融和 修改 事件 设置 以 接收 所 有 通知 。 


通常 的 接收 代码 
31-35 ”这 段 服务 右 程 序 代码 没有 改动 。 
处 理 通知 


36-39 ”服务 器 检查 msg_flags， 如 果 发 现 数 据 是 通知 ， 那 就 调 
用 新 的 实用 函数 print_notification 显 示 这 个 通知 ， 然 后 循环 回 
FRAT- TRE” 


我 们 按 以 下 方式 局 动 客 户 并 发 送 一 个 消 轧 。 


FreeBSD-lap: ./sctpclient01 .5 
[9]Hello 
From str:1 seq:0 (assoc:c99e0):[0]Hello 


Control-D 
FreeBSD- lap: 


在 接收 关联 建立 消 轧 、 用 户 消 思 和 关联 终止 消息 时 ， 我 们 的 服务 
如 程序 按 以 下 方式 显示 每 个 发 生 的 事件 。 


FreeBSD-lap: ./sctpserv06 
SCTP ADAPTION INDICATION:0x5253 
SCTP ASSOC CHANGE: COMMUNICATION UP, assoc-c99e2680h 


SCTP SHUTDOWN EVENT: assoc=c99e2680h 
SCTP ASSOC CHANGE: SHUTDOWN COMPLETE, assoc=c99e2680h 
Control-c 


可 见 ， 服 务 亏 声明 了 在 传输 层 发 生 的 事件 。 


23.5 “无 序 的 数据 


SCTP 通 常 提供 可 靠 的 有 序数 据 传输 服务 ， 不 过 也 提供 可 靠 的 无 序 
数据 传输 服务 。 指 定 MSG_UNORDERED 标 志 发 送 的 消息 没有 顺序 限 
制 ， 一 到 达 对 端 就 能 被 递送 。 无 序 的 数据 可 以 在 任何 SCTP 流 中 发 送 ， 
不 用 赋予 流 序列 号 。 图 23-6 给 出 了 为 了 使 用 无 序数 据 服务 向 回 射 服务 
铬 发 送 请 求 而 对 客户 程序 所 做 的 修改 。 


setpísetp. stechi unc 


18 mt sz = strlenisendling); 

19 Sctp sendmasg(sock fd. sendiine, out sz, 

29 to, toler, 0, MEC UNORDERED, ori.cinto_strcam, 0, 2); 
selpiseip streti imc 


图 23-6 AATCC AXURH)sctp strcliblZ 
使 用 无 序 服务 发 送 数据 


18-20 这 和 10.4 节 中 的 sctpstr_c1i 函 数 几 乎 一 模 一 样 。 唯 一 
的 改变 在 第 21 行 : 指定 MSG_UNORDERED 标 志 调 用 sctp_sendmsg 以 
使 用 无 序 服务 发 送 请 求 消息 。 通 常情 况 下 ， 一 个 给 定 SCTP 流 中 的 所 有 
数据 都 标 以 序列 号 以 便 排 序 。 该 标志 使 相应 数据 以 无 序 方式 发 送 ， 即 
不 标 以 序列 号 ， 一 到 达 对 端 就 能 被 递送 ， 即 使 同一 个 SCTP 流 上 早先 发 
送 的 其 他 无 序数 据 尚 未 到 达 也 是 这 样 。 
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23.6 ”捆绑 地 址 子 集 


有 些 应 用 程序 可 能 想 要 把 主机 的 全 体 IP 地 址 的 某 个 合适 的 子 集 捆 
绑 到 单个 套 接 字 。TCP 和 UDP 传统 上 只 能 捆绑 单个 地 址 ， 而 不 能 捆绑 
一 个 地 址 子 集 。bind 系 统 调用 允许 应 用 进程 捆绑 单个 地 址 或 通 配 地 
址 。 由 SCTP 提 供 的 新 的 sctp_bindx 画 数 调用 允许 应 用 进程 捆绑 不 止 
一 个 地 址 。 注 意 ， 所 有 这 些 地 址 必须 使 用 相同 的 端口 ， 而 且 如 果 已 经 
调用 过 bind， 那 么 所 用 端口 必须 是 调用 bind 时 指定 的 端口 ， 否 则 
sctp_bindx 调 用 将 失败 。 图 23-7 给 出 了 一 个 实用 函数 ， 它 把 作为 画 
数 参数 提供 的 地 址 子 集 捆绑 到 给 定 的 套 接 字 。 


scipircip Eindargs.c 


1 include "ur p.h" 


2 m 
3 s^tp bind arg lisr(ine sock “4, cenar **»argv, int argc) 


5 etrucz addrirfo *addr; 
6 caar *bindbut, "o, porzbut [10] ; 
7 int addzcnt-2; 
8 dat i: 
k] bindbuf = (char *)Sallec(ervge, s:zecfí(s-ruct sockaddr_starage) tg 
10 p = hindbuf: 
11 scrinzf(portbuf, *td", SERV PORT) ; 
12 fcr í i-U; i«argc; i++) { 
13 zdcr = Hoet cerv(argav|i], porzbuf, AP UNEZPZC, SOCK SEDPACKET); 
14 memcpv(p, addr-2»ai &dzcr, addr->ai_edcrlen] ; 
15 f-eesddrinfo(add-); 
16 adcrcnt-4; 
17 p +s addr-»ai addrlen; 
18 ] 
19 Scto bindx(scck fd, (SA vi!bindbuf,addrcnz,SCTP BINDX ADD ADDR) ; 
20 freaíbindbu-); 


return it}; 


selpseip bindargs.c 


图 23-7 ”捆绑 一 个 地 址 子 集 的 画 数 
分 配 捆绑 参数 所 需 空间 


9-10 sctp_bind_arg_1list 函 数 首 先 会 分 配 sctp_bindx 调 
用 的 地 址 列表 参数 所 需 的 空间 。 注 意 sctp_bindx 能 够 混和 接受 IPv4 
和 IPv6 地 址 。 我 们 为 每 个 地 址 分 配 足 以 装 下 sockaddr_storage 结 构 
的 空间 ， 尽 管 地 址 列表 参数 是 多 个 实际 套 接 字 地 址 结构 的 紧凑 列表 


(图 9-4) 。 这 么 做 导致 一 定 的 内 存 空 间 浪费 ， 不 过 总 比 处 理 参数 表 两 
次 以 计算 出 精确 的 内 存 空 间 大 小 简单 些 。 
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处 理 参 数 


11-18 把 portbuf 设 置 成 端口 的 ASCII 表 达 形 式 ， 以 便 调用 
getaddrinfo 的 外 包 画 数 之 一 host_serv。 把 每 个 地 址 和 这 个 端口 
传递 给 host_serv， 同 时 传递 AF_UNSPEC 作 为 地 址 族 以 允许 IPv4 或 
IPv6 地 址 ， 传 递 SOCK_SEQPACKET 作 为 套 接 字 类 型 指明 使 用 SCTP © 
我 们 仅仅 复制 host_serv 返 回 的 第 一 个 套 接 字 地 址 结构 。 有 既然 本 函数 
的 参数 是 各 个 地 址 的 数 串 表达 式 ， 而 不 是 可 能 关联 多 个 地 址 的 名 字 表 
达 式 ， 这 么 处 理 是 安全 的 。 随 后 释放 由 host_serv 内 包 的 
getaddrinfo 分 配 的 空间 ， 递 增 地 址 计数 ， 并 把 指针 移 到 紧 凌 的 套 
接 字 地 址 结构 数组 的 下 一 个 元 素 。 


LEE PE) 


19 ”该 函数 会 将 指针 重 置 到 所 捆绑 缓冲 区 的 顶端 ， 并 以 刚才 准备 
的 地 址 列表 调用 sctp_bindx。 


返回 成 功 
20-21 ”如果 函数 能 运行 至 此 ， 则 清理 所 用 缓冲 区 并 返回 成 功 。 
图 23-8 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 ， 它 改 为 捆绑 以 


命令 行 参数 形式 传递 的 一 系列 地 址 。 我 们 只 是 稍 作 改动 ， 因 此 总 是 在 
回 映 请 求 消 妃 到 达 的 流 上 回 射 应 答 请 恩 。 


scte/scteserv0?.c 
12 ifiarge e 2) 
Ls err quit ("Error, use s [lisc cf addresses co bind)\n", argv[9o}); 
14 sock f3 - Socket (AP_INETG, SOCK_SEQPACKET, IFPROTO_SCTP) ; 
15 ifisctp bind arg listisock_fd, argv + 1, argc - 1)! 
16 err_sys{"Can't bind the address set"); 
17 bzero(&teynte, 2-zeof (ewntz,;); 
16 emnzs.sctp data io event = 1, 


sctp/sciescrvü7. c 


图 23-8 ”使 用 数目 可 变 的 一 组 地 址 的 服务 器 程序 


使 用 IPv6 的 程序 代码 


14 这 里 我 们 看 到 的 是 全 章 都 在 介绍 的 服务 絮 程 序 ， 不 过 有 点 小 
改动 。 在 这 里 服务 器 创建 的 是 AF_INET6 套 接 字 ， 因 此 IPv4 和 IPv6 都 


调用 新 的 函数 


15-16 ”服务 硕 调 用 新 的 捆绑 函数 ， 把 命令 行 参 数 作为 画 数 参数 
传递 给 它 处 理 。 


23.7 ”确定 对 端 和 本 端 地 址 信息 


SCTP 是 一 个 多 宿 协议 ， 找 出 一 个 关联 的 本 地 端点 和 远程 端点 所 用 
的 地 址 需要 使 用 不 同 于 单 宿 协 议 的 机 制 。 本 节 中 我 们 把 10.4 节 的 客户 
程序 改 为 接收 通信 开工 (communication up) 通知 ， 然 后 使 用 该 通知 显 
示 关 联 的 本 端 和 对 端的 地 址 。 图 23-9 和 图 23-10 给 出 修改 后 的 客户 程序 
main 函 数 和 sctp_strcli 函 数 。 图 23-11 和 图 23-12 给 出 新 增 的 函 
数 。 
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selpiecipelient04 
16 bzero(&ewilbs, sizecf (Ovmnsi): 
37 evnte.Sctp data io event = 1; 
18 evnts.sctp_associaticn_event = 1; 
19 Set sockape (sr wk_ fd, IPPROTO SCTP, SCTP EVENTS, &ewvnbis, sivernf (evrite)); 
20 octocrr_cli(ctdin, sock_td, (SA *)&ocrvaddr,oizco2t (ocrvaddr) | ; 


selp/seipelient04 


图 23-9 ”设置 接收 通信 开工 通知 的 客户 程序 
设置 时 间 通 知 并 调用 回 射 函 数 


16-20 maini 函数 有 了 些许 改动 。 客 户 程序 显 式 预订 关联 变动 通 
知 ， 通 信 开 工 通 知 属于 该 通知 类 型 。 


接着 是 sctp_strcl1i 函 数 的 改动 〈 见 图 23-10) ， 它 使 用 新 的 通 
信和 处理 实用 函数 check_notification。 


- sctevscte sirciil.c 


22 ler = sizeof (peeraddr) : 


23 rd ez = Scotp reovmeqisock_fd, recvline, zizeof(recvline), 

24 (3A *)Speeraddr, Slen, &sri. &musg flags); 
25 iE (wx Flags & MSS MOTTFICATTON) 

$6 check noczifiostion(czock fd,recvlins,rd cz); 

<7 ) while (masa flags & MSS_NOTIPICATION) ; 

28 print’ (*Prom s-r:$d ssq:$d (assu::Oxtx) :" 

49 sri.sinfo stream, sri.sinfo ssn, iu inc)sri.sinfo asscc id); 
i0 printz("$.*c", rd 02, recv.inc); 


scip/scip. sirclil.c 


图 23-10  4h£bEATBUsctp strcli/kZk 


循环 等 待 消息 


21~24 客户 会 设置 套 接 字 地 址 结构 长 度 变 量 ， 调 用 接收 函数 获 
取 由 服务 器 回 射 的 应 答 消 息 。 


检查 通知 


25-26 客户 会 查看 刚 读 入 的 消息 是 不 是 一 个 通知 。 若 是 则 调用 
图 23-11 所 示 的 通知 处 理 函 数 。 


setpsetp_check_notifi.c 


#include "uzp. h" 


void 
chack_notification lint sock_fd.char *recvline,int rd ler] 


union setp_nstification *snp; 


Slruch wol aor change Aware 
struct sockaddr storage *cal, *sar; 
int rum rem, num loo; 


snp = (union scLp auoLificatios ^)recvlime: 
itfisnp-»sn haader. sn type == SCTP ASSOC CHANSE) ( 


BÍ 
wom d d cn dtl n 
一 


sac = &snp->sn_sssor>_change; 


12 if {(sac-nsac_state == SCTP COMM UP) | 

13 (eac->eac state == SCIP RESTART;) { 

14 nur rem = cctp cetpaddrsicock_fd,cc¢->cac_accoc_id, Sear) ; 

15 rintt ("There arc Yo remote addz26cc2 and they arc:\n", num rom; 
16 seczp print zddrcos3cs isar, num rem; 

17 sctp freepaddrs (sar) ; 

18 rur loc = ctp zet.sddrs'sock fd,sse->sac assoc id,feal); 

19 printf ("There are $2 local addresscs and they are:\r", rum loc); 


20 sczp print zsddrssses (sal,num loc): 
sczp freela3drs(sa.), 


to ho Ww t2 
心 Li D ee 
— 
— 
~ 


seipselp check notify.c 


图 23-11 通知 处 理 函 数 


直到 读 入 数据 


27 如 采 刚 读 入 的 是 一 个 通知 ， 那 惑 继续 循环 ， 直 到 读 入 真正 的 
"T 


显示 消息 
28-30 显 式 消 妃 并 回 到 处 理 循 环 顶部 ， 等 待 用 户 输入 。 


再 接着 是 check_notification 函 数 ( 见 图 23-11) ， 它 在 某 个 
关联 通知 到 达 之 后 显示 本 地 和 远程 两 个 端点 的 地 址 。 
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检查 是 否 为 期 望 的 通知 


9-13 该 函数 把 接收 缓冲 区 类 型 强制 转换 成 通用 的 通知 指针 ， 以 
便 找 出 通知 类 型 。 如 果 本 通知 是 所 关注 的 类 型 〈 即 关联 变动 类 通 
知 ) ， 那 就 测试 它 是 否 为 一 个 新 的 或 重新 激活 的 关联 
(SCTP_COMM_UP 或 SCTP_RESTART) 。 我 们 忽略 所 有 其 他 通知 。 


收集 并 显示 对 端 地 址 


14-17 调用 sctp_getpaddrs 汇 集 远程 地 址 列表 ， 然 后 显示 地 
址 数目 ， 并 调用 图 23-12 所 示 的 地 址 显示 实用 函数 
sctp_print_addresses 显 示 各 个 地 址 。 完 成 之 后 调用 
sctp_freepaddrs 释 放 由 sctp_getpaddrs 分 配 的 资源 。 


*cip/scip. print. adars.c 


1 #include "uap.h" 

2 void 

2 Sctp prirt aódresses(struct scckadd-z storaze *3sddrs, int num; 
4 1 

5 struct sockaddr storage “ss; 

6 int i, salen; 

7 88 = acdrsa; 

8 for {i=0; i«num; i++! | 

9 printf ("ts\n", Sock_ntop((SA *)5s, salen)!; 

10 difdef HAVE_SOCKADDR_SA_LEN 

11 salen = AS-»558 len; 

12 #rlse 

13 ewitch(ss-sss *ami!'y; 1 

14 case As INET: 

15 salen = sizeof (etrust sockaddr in); 

16 break; 

17 $ifdct IEV6 

16 case A7 INET6: 

19 salen - sizeof [struct sockaddr_in6). 

20 break, 

21 #endif 

22 cefa c 

23 err quit ("sctp pr int addr esses: unknown AF"): 
24 breac; 

25 

26 fendif 

27 zg = jetruct sockzdzr storage *!i(char *)ec + calen), 
28 } 

29 ] 


seip/seip vrint adars.c 


图 23-12 ”地 址 列表 显示 函数 


收集 并 显示 本 地 地 址 


18-21 调用 sctp_getladdrs 收 集 本 地 地 址 列表 ， 并 显示 地 址 
数目 和 各 个 地 址 本 号 。 在 通知 处 理 函 数 使 用 完 这 些 地 址 后 调用 
sctp_freeladdrs 释 放 由 sctp_getladdrs 分 配 的 资源 。 


最 后 是 sctp_print_addresses 函 数 ( 见 图 23-12) ， 它 显示 由 
sctp_getpaddrs 或 sctp_getladdrs 返 回 的 地 址 列表 。 


处 理 每 个 地 址 
7-8 根据 调用 者 指定 的 地 址 数目 志 历 每 个 地 址 。 
显示 地 址 


9 调用 sock_ntop 显 示 地 址 。 该 函数 能 够 显示 系统 支持 的 任何 
套 接 字 地 址 结构 格式 。 


634 

确定 地 址 大 小 
10-26 地址 列表 是 一 个 紧 趴 的 套 接 字 地 址 结构 数组 ， 而 不 是 单 

一 sockaddr_storage 结 构 的 数组 。 这 是 因为 sockaddr_storage 
结构 太 大 ， 用 它 在 内 核 和 进程 之 间 传 递 地 址 过 于 痕 费 内 存 空间 。 如 果 
僚 接 字 地 址 结构 目 带 长 度 成 员 ， 那 就 直接 使 用 其 值 作为 本 结构 的 长 
a Ga UCR TE HO RE, AN TR a RP E $8 
yH 
移动 地 址 指针 


27 根据 所 确定 的 地 址 大 小 前 向 移动 地 址 指针 ， 指 向 下 一 个 竺 处 
理 的 地 址 。 


运行 代码 


RIZA PARP HAA “ME: 


FreeBSD-lap: ./sctpclient01 .5 

[0]Hi 

There are 2 remote addresses and they are: 
.5:9877 

127.0.0.1:9877 


There are 2 local addresses and they are: 
.5:1025 


127.0.0.1:1025 

From str:0 seq:0 (assoc:c99e2680): [0]Hi 
Control-D 

FreeBSD- lap: 


23.8 ”给 定 IP 地 址 找 出 关联 ID 


在 23.7 节 所 做 的 客户 程序 改动 中 ， 客 户 使 用 关联 通知 事件 引发 地 
址 列表 的 获取 。 这 类 通知 在 sac_assoc_id 成 员 中 给 出 了 关联 标识 ， 
因此 可 用 于 从 IP 地 址 反 查 关联 ID。 然 而 如 果 应 用 进程 没有 在 跟踪 关联 
标识 ， 而 且 只 知道 一 个 对 端 地 址 ， 它 如 何 才 能 找到 它 的 关联 ID 呢 ? 
23-13 给 出 了 从 一 个 对 端 PP 地 址 转换 成 一 个 关联 ID 的 简单 画 数 。23.10 区 
给 出 的 服务 器 程序 将 使 用 本 函数 。 


scipyscip addr _f0_assoe id.c 
1 &incJYue "ugp h" 


2 8ctp asscc t 
3 sctp address tc associd(int scck fd, struct sockaddr *sa, socklen t salen! 


4 | 

5 struct sctp_paddrparams sp; 

6 int Sig; 

siz = sizecf(struc- setp paddrparams) ; 

6 brero(&sp, siz); 

9 memcpv(&sp.spp address. ss, salen); 

10 sctp opt inzfc/sock fd, 0, SCTE_FEER_ADDR PARAMS, &sp, &Siz} ; 

11 return(sp.spp assoc id); 

12 } 

selselp addy ta associd.c 
图 23-13 ”从 站 地 址 到 关联 ID 的 转换 函数 

7-8 初始 化 所 用 的 sctp_paddrparams 结 构 。 


9 把 作为 参数 传 入 的 套 接 字 地 址 结构 按照 同时 传 入 的 长 度 复 制 
到 sctp_paddrparams 结 构 中 。 


获取 套 接 字 选项 值 
10 ”通过 获取 SCTP_PEER _ADDR_PARAMS 套 接 字 选项 值 取得 对 


端 地 址 参数 。 既 然 该 套 接 字 选 项 需要 既往 内 核 复制 入 又 从 内 核 复 制 出 
参数 ， 因 此 我 们 不 用 getsockopt， 而 用 sctp_opt_info。 本 调用 


返回 当前 心 搏 间隔 、SCTP 实 现 认定 对 端 地 址 不 可 达 所 需 的 最 大 重 传 次 
数 以 及 最 为 重要 的 关联 ID。 我 们 不 检查 本 调用 的 返回 值 ， 如 有 宁 调 用 失 
败 ， 那 殉 返 回 0。 


11 把 关联 ID 返回 给 调用 者 。 如 果 刚 才 的 调用 失败 ， 早 先 对 
sctp_paddrparams 结 构 的 清 零 将 确保 调用 者 得 到 值 为 0 的 关联 ID。 
关联 ID 不 允许 为 0， 不 过 SCTP 也 可 以 使 用 0 值 关 联 ID 作为 没有 关联 的 指 
ZR? 


23.9 ” 心 捕 和 地 址 不 可 达 


SCTP 提 供 类 似 TCP 的 保持 存活 选项 的 心 搏 机 制 。SCTP 的 心 搏 机 
制 默认 就 开局 。 应 用 进程 可 以 使 用 23.8 季 用 到 的 同一 个 套 接 字 选 项 设 
"ELA TOC P HIE BAD TRI ERU EBERT TB ^ EBERT TRE VA REGAT E 
址 不 可 达 之 前 必须 发 生 的 心 搏 遗失 亦 即 超时 重 传 次 数 。 由 心 搏 检测 到 
该 对 端 地 址 再 次 变 为 可 达 时 ， 该 地 址 重新 开始 活跃 。 


应 用 进程 可 以 休止 心 搏 ， 不 过 要 是 没有 心 搏 的 话 ，SCTP 将 无 法 检 
测 一 个 被 认定 不 可 达 的 对 端 地 址 再 次 变 为 可 达 。 没 有 用 户 干预 ， 这 些 
地 址 殊 不 能 回 到 活路 状态 。 


sctp_paddrparams 结 构 中 的 心 搏 间隔 字段 是 
spp_hbinterval。 其 值 为 SCTP_NO_HB 即 0 表示 禁止 心 搏 。 其 值 为 
SCTP_ISSUE_HB 即 9xffffffff 表 示 一 经 请 求 立 即 心 捕 。 任 何其 他 
值 以 之 秒 为 单位 设置 心 捕 间隔 。 该 值 加 上 当前 重 传 计时 器 的 值 ， 再 加 
上 一 个 随机 的 抖动 值 就 构成 了 心 搏 的 间隔 时 间 。 图 23-14 给 出 的 小 函数 
可 用 于 针对 某 个 对 端 地 址 设置 确切 的 心 搏 间隔 ， 或 请 求 立 即 心 搏 一 
次 ， 或 禁止 心 搏 。 注 意 ， 把 sctp_paddrparams 结 构 中 的 重 传 次 数 
成 员 spp_pathmaxrxt 设 置 为 0 表示 保持 其 当前 值 不 变 。 
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- dinclude "up. hi" 


sctp/sctp. modiy. abc 


2 int 
3 heartbeat_action(int sock zd, struct sockaddr *52, occ«xlen t salen, 


4 u int value! 

5 i 

b struct cip pacdrparans Sp; 

7 int siz; 

8 bzero(&sp,size»t(sp)); 

9 Sz.spp hbinterval ~ value; 
10 manzpy!(caddr t,&ep.zpp addrecs, sa, galen): 
1i Setsockopc|sock fd, IP2ROTO_SCTP. 
12 SCTE _SEZR_ADOR_PARSMS, &sp sizenof (sp) ) 


13 raeturni!0); 


setprseto modify atc 


图 23-14” 心 搏 控制 实用 函数 
清 零 sctp_paddrparams 结 构 并 复制 心 捕 间 隔 

7-8 清 零 sctp_paddrparams 结 构 ， 确 保 不 改动 心 搏 机 制 的 任 
何 非 关 注 参数 。 把 调用 者 给 定 的 心 搏 间隔 值 复制 到 该 结构 中 ， 可 以 是 
SCTP_ISSUE_HB、SCTP_NO_HB 或 一 个 确切 的 心 搏 间隔 。 
设置 对 端 地 址 


10 把 实施 心 搏 的 对 端 地 址 复制 到 sctp_paddrparams 结 构 
中 ， 以 便 SCTP 实 现 了 解 我 们 希望 它 向 哪个 地 址 发 送 心 搏 请 求 。 


执行 所 需 行为 
11-12 调用 setsockopt 执 行 用 户 请 求 的 行为 。 


23.10 “关联 剥离 


至 此 我 们 一 直 在 关注 SCTP 提 供 的 一 到 多 式 接口 。 一 到 多 式 接口 相 
比 更 为 传统 的 一 到 一 式 接 口 存在 以 下 优势 。 


。 只 需 维 护 单个 描述 符 。 

。 允许 编写 简单 的 迭代 服务 器 程序 。 

。 人 允许 应 用 进程 在 四 路 握手 的 第 三 个 和 第 四 个 分 组 发 送 数据 ， 只 需 
使 用 sendmsg 或 sctp_sendmsg 隐 式 建立 关联 就 行 。 

。 无 需 跟 踪 传 输 状 态 。 也 就 是 说 应 用 进程 只 需 在 套 接 字 描 述 符 上 执 
行 一 个 接收 调用 就 可 以 接收 消息 ， 之 前 不 必 执 行 传统 的 connect 
或 accept 调 用 。 
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然而 一 到 多 式 搂 口 却 存在 一 个 主要 缺陷 : 造成 难以 编写 并 发 服务 
器 程序 (用 线程 或 派生 子 进程 ，》。 该 缺陷 促成 增设 sctp_peeloff 画 
数 。 该 函数 取 一 个 一 到 多 式 套 接 字 搬 述 符 和 一 个 关联 JD， 返 回 一 个 新 
的 仅仅 附 以 给 定 关 联 的 一 到 一 式 套 接 字 描述 符 (再 加 上 已 经 排队 在 该 
关联 上 的 通知 和 数据 ) 。 原 始 的 一 到 多 式 套 接 字 继续 开放 ， 它 代表 的 
其 他 关联 均 不 受 此 影响 。 


该 套 接 字 然 后 可 以 递交 给 某 个 专门 的 线程 或 子 进 程 加 以 处 理 ， 从 
而 实现 并 发 服务 器 。 我 们 把 10.2 节 给 出 的 服务 器 程序 改 为 : 先 处 理 某 
个 客户 的 第 一 个 请 求 消 息 ， 再 使 用 sctp_pee1Loff 和 剥离 出 处 理 该 客户 
的 一 个 套 接 字 ， 派 生 一 个 子 进程 后 由 子 进程 调用 5.3 节 介绍 的 
str_echo 函 数 ， 如 图 23-15 所 示 。 我 们 调用 23.8 节 给 出 的 实用 函数 把 
所 接收 消息 的 源 地 址 转换 成 关联 ID。 当 然 这 个 关联 ID 也 出 现在 
sri.sinfo assoc id 中， 我 们 这 么 转换 只 是 为 了 展示 这 个 从 了 P 地 
址 确定 关联 ID 的 方法 。 派 生子 进程 后 ， 服 务 器 父 进程 循环 回去 处 理 来 
目下 一 个 客户 的 请 求 * 


solpicctpserv_fork.c 


23 fot ( ii) 1 

24 len - sizeof(struct sockaddr in) 

25 rd sz - Sctp recvmsq(sock fd, zeadbuf, sizeof |veadbuf), 
28 ‘SP *)&c.ieddr, &len, &sri, &esa Flags): 
27 Sctp serdrsg(sock fd, readbuf, rd sz, 

28 [SR *)àcliaddr, Len 

23 sri.sinfo_ppid. 

39 sri.sinfo_flags, sri.sinfo_stream, 6, 0); 
31 assoc = scbp address to assocdGosouek fü, (SA *)&cliackir, len); 
i if ((inrjassace == 0) | 

33 arr rat("Can'- get association id"); 

3à continue; 

33 i 

35 conntd = sctp peelo-t.8Gcc« t2, 88800), 

37 if (conrfd == -1, 1| 

33 arr ret("ectp peeloff fails"); 

32 continue; 

42 | 

41 ifi(childsid = fork()) == 0j | 

42 Close (sock_fd}, 

43 str echo(connfd!; 

44 exití0); 

45 | else { 

45 TClase(cocnfd: ; 


图 23-15 一 个 并 发 SCTP 服 务 器 程序 
接收 并 处 理 来 自 客户 的 第 一 个 消息 

26-30 接收 并 处 理由 某 个 客户 发 送 的 第 一 个 消息 。 
638 
把 地 址 转换 成 关联 ID 

31-35 调用 图 23-13 给 出 的 函数 把 该 消息 的 源 地 址 转换 成 一 个 关 
a 。 如 果 无 法 取得 该 关联 ID， 那 吏 跳 过 它 而 不 试图 派生 子 进 程 继续 

理 。 

剥离 出 关联 

36-40 调用 sctp_peeloff 把 与 该 客户 的 关联 剥离 到 上 自己 的 一 
到 一 式 套 接 字 中 。 这 会 形成 一 个 可 以 被 传递 到 先前 的 TCP 版 
str_echo 函 数 的 一 对 一 式 套 接 字 。 
派 遗 工作 给 子 进程 


41-47 ”派生 一 个 子 进程 ， 让 该 子 进程 执行 这 个 新 套 接 字 上 的 所 
有 后 续 工 作 。 


23.11 ”定时 控制 


SCTP 有 许多 用 户 可 调 的 控制 量 ， 它 们 都 通过 我 们 在 7.10 节 讨论 过 
a UE 我 们 在 本 和 讨论 一 些 定时 控制 量 ， 它 们 影响 SCTP 
点 需 多 和 久 才能 声称 某 个 关联 或 某 个 对 端 地 址 已 经 失效 。 


SCTP 有 7 个 确定 失效 检测 定时 的 控制 量 ， 如 图 23-16 所 示 。 


srto min 最 小 重 污 超时 1000 毫秒 
srto wax Ie X d E] 60000 apt 
srto initia. giu Wee dr] 3000 毫秒 
sinit max init timeo INITI| 外 段 最 大 重 传 起 时 8000 E14 
sinit max attempts INIT HS A HEE 8 A 
&pp. pathmaxrxt fj^ Nb IJIRA SETS CC 5 次 数 

ee 每 个 关联 的 最 大 重 传 次 数 10 次 数 


图 23-16 ”SCTP 中 控制 定时 的 字段 


这 些 控制 量 影响 SCTP 的 失效 检测 速度 或 重 传 尝试 次 数 ， 可 以 认为 
窑 们 是 纺 短 或 延长 端点 失效 答 测 时 间 的 控制 于 柄 。 我 们 首先 碍 看 以 下 
情形 。 


(1) 一 个 SCTP 端 点 试图 打开 与 某 个 对 端的 关联， 而 该 对 端 主 机 已 
经 断 开 与 网 络 的 物理 连接 。 


(2) 两 个 多 宿 的 SCTP 端 点 主机 在 交换 数据 ， 其 中 之 一 在 通信 过 程 
中 关机 。 由 于 防火 墙 的 过 小， 对 当主 机 没有 收 到 任何 ICMP 消 息 o 
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第 一 种 情形 下 ， 试 图 打开 关联 的 系统 首先 把 RTO 定 时 器 设置 成 
srto_initial 值 即 3000 ms。 发 生 一 次 超时 后 ， 它 重 传 INIT 消 息 并 
把 RTO 定 时 器 倍增 成 6000 ms。 这 样 的 行为 将 持续 到 已 经 发 送 了 
sinit_max_attempts 值 即 8 次 INIT 消 息 ， 且 每 次 传送 都 发 生 超 时 为 


止 。RTO 定 时 器 的 倍增 以 sinit_max_init timeo 值 即 60 000 ms 这 
一 上 限 。 因 此 SCTP 从 开始 发 送 INIT 消 息 到 宣告 潜在 对 端 主机 不 可 达 所 
花 的 总 时 间 为 3+6+12+24+48+60+60+60=273 s ° 


我 们 可 以 旋 动 一 些 手柄 或 手柄 组 合 来 缩短 或 延长 这 个 时 间 。 让 我 
们 聚焦 在 可 用 于 把 这 个 时 间 缩 短 到 譬如 270 s 的 两 个 参数 
sinit max attemptsfüsinit max init timeo。 方 法 之 一 是 
减少 由 Sinit_max_attempts 规 定 的 重 传 次 数 。 如 采 把 重 传 次 数 减 
少 到 4 次 ， 失 效 检测 时 间 将 缩短 到 45s， 约 是 默认 设置 给 出 的 时 间 的 
1/6。 这 个 方法 的 缺点 是 增加 了 发 生 如 下 情况 的 概率 : 对 端 主机 可 达 ， 
不 过 由 于 网 络 丢失 或 对 端 主机 过 载 等 原因 ， 我 们 声称 它 不 可 达 。 


方法 之 二 是 缩短 由 sinit_max_init _timeo 规 定 的 INIT 消 息 最 
大 RTO 值 。 如 果 把 最 大 RTO 降 低 到 20 s， 失 效 检测 时 间 将 缩短 到 121 
s， 不 到 原初 值 的 一 半 。 这 个 方法 的 缺点 是 过 低 的 最 大 RTO 可 能 导致 过 
密 地 重 传 INIT 消 息 。 


第 二 种 情形 下 ， 假 设 一 个 端点 有 2 个 地 址 IP-A 和 IP-B， 男 一 个 端点 
也 有 2 个 地 址 IP-X 和 IP-Y。 如 果 其 中 之 一 因 关 机 而 变 得 不 可 达 (假设 数 
据 原先 由 现 未 关机 的 那个 端点 发 送 ) ， 发 送 端点 将 对 于 每 个 对 端 地 址 
相继 发 生 超 时 ， 开 始 为 srto_min 值 (默认 为 1s) ， 以 后 一 直 倍 增 到 
对 于 每 个 对 端 地 址 都 达到 上 限 的 srto_max 值 (默认 为 60 s) 。 该 端点 
将 重 传 关联 的 sasoc_asocmaxrxt 值 (默认 为 10 次 重 传 ) 。 


发 送 端点 经 历 的 超时 总 和 为 1 (IP-A) +1 (IP-B) +2 (IP-A) +2 
(IP-B) +4 (IP-A) +4 (IP-B) +8 (IP-A) +8 (IP-B) +16 (IP-A) 
+16 (IP-B) =62s。srto_max 没 有 起 上 限 作 用 ， 因 为 在 它 能 够 起 作用 
之 前 关联 重 传 次 数 已 经 达到 sasoc_asocmaxrxt。 让 我 们 再 次 聚焦 

在 可 用 于 影响 这 些 超时 和 最 终 失 效 检测 时 间 的 两 个 参数 ， 修改 
sasoc_asocmaxrxt 值 (默认 为 10) 可 以 减少 重 传 尝 斌 次数， 修改 
srto maxí& (默认 为 60 s) 可 以 降低 最 大 RTO。 如 果 把 srto_max 设 
置 成 10s， 检 测 时 间 就 能 减少 12 s， 结 果 为 50 s。 如 果 把 
sasoc_asocmaxrxt 设 置 成 8， 检 测 时 间 就 会 缩短 到 30 s。 第 一 种 情 
形 下 提 及 的 缺陷 同样 适用 于 本 情形 :持续 时 间 较 短 的 可 恢复 网 络 故 障 
或 远程 系统 过 载 可 能 导致 工作 中 的 关联 被 自动 拆除 。 
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在 众多 定时 控制 量 中 ， 我 们 不 建议 降低 最 小 RTO E 
(srto min) 。 跨 因特网 通信 时 降低 该 值 会 导致 以 更 短 的 间隔 重 传 
消 恩 ， 从 而 过 度 消 耗 因特网 基础 设施 资源 。 在 私 用 网 络 上 调 低 该 值 尚 
可 接受 ， 然 而 对 于 大 多 数 应 用 来 说 ， 该 值 不 宜 减 少 。 

应 用 进程 在 旋 动 这 些 定 时 手柄 之 前 必须 考虑 以 下 大 干 因素 。 

。 应 用 进程 需要 以 多 快 的 速度 进行 失效 检测 ? 
。 应 用 进程 运行 在 整个 端 对 端 路 径 相对 因特网 而 言 更 广为人知 且 变 

化 更 少 的 私 用 网 络 上 吗 ? 

。 虚假 的 失效 检测 会 有 什么 后 采 ? 


仔细 回答 这 些 问题 后 ， 应 用 进程 才能 恰当 地 调整 SCTP 的 定时 参 


又 


23.12 ” 何 时 改 用 SCTP 代 替 TCP 


SCTP 最 初 开发 目的 是 跨 因特网 传输 电话 呼叫 控制 信念 。 然 而 在 其 
开发 过 程 中 ， 其 适用 范围 被 扩展 到 目 成 一 个 通用 传输 协议 的 程度 。 它 
提供 TCP 的 大 多 数 特 性 ， 又 增设 广泛 的 革新 传输 层 服务 。 多 数 应 用 程 
one o 因此 何 时 值得 改 用 SCTP 呢 ? 我 们 先 列 出 SCTP 的 益 


(1) SCTP 直 接 文 持 多 和 宿 。 一 个 端点 可 以 利用 它 的 多 个 直接 连接 的 
网 络 获得 额外 的 可 靠 性 。 除 了 移植 到 SCTP 外 ， 应 用 程序 无 需 采 取 其 他 
行为 束 可 以 自动 使 用 SCTP 的 多 和 窒 服 务 。 关 于 SCTP 的 多 答 细 市 参见 
| Stewart and Xie 2001| 的 7.4 节 。 


(2) 可 以 消除 头 端 阻塞 。 应 用 进程 可 以 使 用 单个 SCTP 天 联 并 行 地 
传输 多 个 数据 元 素 。 同 一 个 关联 内 ， 一 个 流 中 的 数据 丢失 不 会 影响 其 
他 并 行 的 流 中 的 数据 流动 (10.577) ° 


(3) 保持 应 用 层 消 轧 边界 。 许 多 应 用 发 送 的 并 不 是 字 下 流 ， 而 是 消 
思 。SCTP 保 持 应 用 进程 发 送 的 消息 边界 ， 从 而 略微 霄 化 了 应 用 程序 开 
发 人 员 的 任务 。 使 用 SCTP 无 需 在 字 世 流 中 标记 消息 边界 ， 也 无 需 提 供 
在 接收 疾 从 字 市 流 中 重 构 出 消息 的 特殊 处 理 代码 。 


(4) 提供 无 序 消息 服务 。 对 于 某 些 应 用 ， 请 恩 的 到 达 顺 序 无 关 紧 
要 。 这 样 的 应 用 出 于 可 靠 性 要 求 一 般 使 用 TCP， 不 过 没有 顺序 要 求 的 
消 轧 还 是 将 按照 发 送 端 提 区 顺序 递送 到 接收 端 。 其 中 任何 一 个 消息 的 
BRAS BOE A Ay hE A a, BU Seve ABI EBA tH AN Bete 
前 无 序 递送 。SCTP 的 无 序 服 务 可 用 于 避免 这 个 问题 ， 使 得 应 用 需求 与 
传输 服务 直接 匹配 。 
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(5) 有 些 SCTP 实 现 提供 部 分 可 靠 服 务 。 这 个 特性 允许 SCTP 发 送 端 
为 每 个 消息 指定 一 个 生命 期 ， 使 用 的 是 sctp_sndrcvinfo 结 构 的 
sinfo_timetolive 字 段 。 (这 个 生命 期 不 同 于 IPv4 的 TTL 或 IPv6 的 
跳 限 ， 它 是 真正 的 时 间 长 度 。) 当 源 端点 和 目的 端点 都 支持 本 特性 
上 时， 时间 敏感 的 过 期 数据 可 改 由 传输 层 而 不 是 应 用 进程 丢弃 (该 数据 


可 能 发 送 过 ， 不 过 丢失 了 ) ， 从 而 在 面临 网 络 阻塞 时 优化 数据 的 传 


输 。 


(6) SCITP 以 一 到 一 式 接口 提供 了 从 TCP 到 SCTP 的 简易 移植 手段 。 
该 接口 类 似 典 型 的 TCP 接 口 ， 因 此 稍 加 修改 ， 一 个 TCP 应 用 程序 就 能 
移植 成 SCTP 应 用 程序 。 


(7) SCTP 提 供 TCP 的 许多 特性 ， 包 括 正面 确认 、 重 传 丢 失 数据 、 
重 排 数据 、 窒 口 式 流量 控制 、 慢 启动 、 拥 塞 避免 、 选 择 性 确认 ， 没 有 
包括 进来 的 两 个 例外 特性 是 半 关 闭 状态 和 紧急 数据 。 


(8) SCTP 提 供 许 多 供应 用 进程 配置 和 调整 传输 服务 ， 以 便 基于 关 
联 匹配 其 需求 的 挂钩 〈( 见 本 章 和 7.10 节 ) 。 这 些 挂 钧 提供 的 灵活 性 配 
合 民 好 的 默认 设置 〈 供 不 希望 调整 传输 服务 的 应 用 进程 使 用 ， 为 应 
用 程序 提供 了 TCP 难 以 企及 的 控制 能 力 。 


SCTP 不 提供 的 TCP 特 性 之 一 是 半天 闭 状 态 。 当 一 个 应 用 进程 天 闭 
了 某 个 TCP 连 接 的 自身 一 半 却 仍然 允许 对 端 发 送 数 据 时 ， 该 连接 进入 
半 关 闭 状态 (6.6 节 ) ， 同 时 告知 对 端 本 端 已 经 发 送 完 数据 。 使 用 本 特 
性 的 应 用 不 是 很 多 ， 因 此 在 SCTP 开 发 阶段 ， 本 特性 被 认为 不 值得 增加 
到 SCTP 中 。 确 实 需 要 本 特性 的 应 用 程序 移植 到 SCTP 时 不 得 不 修改 应 
用 层 协议 ， 在 应 用 数据 流 中 提供 这 个 告知 EOF 的 手段 * 有 些 个 案 如 此 
修改 协议 并 非 轻而易举 之 事 。 


SCTP 不 提供 的 TCP 特 性 之 二 是 紧急 数据 。 使 用 分 离 的 SCTP 流 传 
输 紧 急 数据 多 少 类 似 TCP 的 紧急 数据 的 语义 ， 不 过 难以 准确 复制 这 个 


特性 


不 能 从 SCTP 中 真正 获 益 的 是 那些 确实 必须 使 用 面向 字 节 流传 输 服 
务 的 应 用 ， 如 telnet、rlogin、rsh、ssh 等 。 对 于 这 样 的 应 用 ， 
TCP 能 够 比 SCTP 更 高 效 地 把 字 布 流 分 割 分 装 到 TCP 分 下 中 。SCTP 上 忠实 
地 保持 消息 边界 ， 当 每 个 消息 的 长 度 仅仅 是 一 个 字 节 时 ，SCTP 封 闭 消 
息 到 数据 块 中 的 效率 非常 之 低 ， 导 致 过 多 的 开销 。 


总 之 ， 许 多 应 用 可 以 考虑 改 用 SCTP 重 新 实现 ， 前 提 是 SCTP 能 够 
在 Unix 平 台 上 得 以 普及 。 应 该 看 到 应 用 可 以 从 SCTP 的 特殊 特性 中 获 
益 ， 要 是 SCTP 得 到 普及 ， 那 就 不 必死 盯 着 TCP 了 。 


c 
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23.13 ”小 结 


在 本 章 中 ， 我 们 学 习 了 SCTP 的 目 动 天 闭 机 制 ， 了 解 了 怎样 使 用 它 
限制 一 到 多 式 套 接 字 中 可 能 存在 的 朵 置 和 关联。 编写 了 利用 部 分 递送 
API 接 收 过 大 消息 的 简单 实用 函数 。 通 过 一 个 单纯 显示 通知 的 简单 实 
用 函数 说 明了 应 用 进程 可 以 译 解 在 传输 中 发 生 的 事件 。 我 们 还 简单 查 
看 了 如 何 发 送 无 序 的 数据 以 及 捆绑 一 个 地 址 子 集 。 我 们 还 查看 了 如 何 
获悉 一 个 关联 的 本 地 端点 地 址 和 远程 端点 地 址 ， 并 提供 了 从 一 个 对 端 
地 址 到 一 个 关联 ID 的 转换 方法 。 


心 搏 (在 TCP 中 称 为 保持 存活 ) 在 SCTP 关 联 上 默认 就 在 交换 。 我 
们 通过 一 个 简单 实用 函数 查看 了 如 何 控制 这 个 特性 。 我 们 还 查看 了 如 
何 使 用 sctp_peeloff 系 统 调用 从 一 个 一 到 多 式 套 接 字 剥离 出 一 个 天 
联 并 自 成 一 个 一 到 一 式 套 接 字 ， 并 通过 例子 分 析 了 如 何 由 此 编写 并 发 
式 服务 器 程序 。 我 们 讨论 了 调整 SCTP 定 时 参数 前 需 考 虑 的 因素 。 最 后 
是 改 用 SCTP 需 考虑 的 因素 。 


习题 


23.1 编写 一 个 客户 程序 ， 用 于 测试 23.3 节 中 使 用 部 分 递送 API 的 
服务 器 程序 。 


23.2 ”除了 发 送 很 大 的 消息 给 23.3 节 中 的 服务 器 程序 外 ， 还 有 什么 
其 他 方法 可 用 于 激发 该 程序 中 的 部 分 递送 API? 


23.3 ”重新 编写 部 分 递送 API 服 务 器 程序 ， 使 得 它 能 够 处 理 部 分 递 
送 API 通 知 。 


23.4 ”哪些 应 用 可 从 使 用 无 需 数据 服务 中 获 益 呢 ? ANBAR a A SC 
是 哪些 应 用 ? 请 给 出 解释 。 


23.5 ”如 何 测 试 地 址 子 集 捆绑 服务 絮 程 序 ? 

23.6 ”假设 你 的 应 用 系统 运行 在 一 个 通过 局 域 网 互 连 起 来 的 私 用 
网 络 上 ， 而 且 所 有 服务 器 进 程 和 客户 进程 都 运行 在 多 箱 主 机 上 。 为 了 
确保 在 2 秒 钟 或 以 内 完成 失效 检测 ， 需 要 调整 哪些 定时 参数 ? 
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第 24 章 ” 带 外 数据 


24.1 概述 


许多 传输 层 有 带 外 数据 (out-of-band data) 的 概念 ， 它 有 时 也 称 
为 经 加 速 数 据 (expedited data) 。 其 想法 是 一 个 连接 的 某 端 发 生 了 重 
要 的 事情 ， 而 且 该 端 希 望 迅 速 通告 其 对 端 。 这 里 < 迅速 ”意味 着 这 种 通 
知 应 该 在 已 经 排队 等 待 发送 的 任何 “普通 ”\ 有 时 称 为 “ 带 内 2 数据 之 
前 发 送 。 也 就 是 说 ， 带 外 数据 被 认为 具有 比 普 通 数 据 更 高 的 优先 级 。 
融 外 数据 并 不 要 求 在 客户 和 服务 器 之 间 再 使 用 一 个 连接 ， 而 是 被 映射 
到 已 有 的 连接 中 。 


不 幸 的 是 ， 一 旦 超越 普通 概念 光临 现实 世界 ， 我 们 发 现 几乎 每 个 
传输 层 都 各 目 有 不 同 的 带 外 数据 实现 。 而 UDP 作为 一 个 极端 的 例子 ， 
没有 实现 市 外 数据 。 在 本 章 中 ， 我 们 只 关注 TCP 的 带 外 数据 模型 ， 并 
提供 从 多 例子 说 明 套 接 字 API 如 何 处 理 带 外 数据 ， 并 摘 述 了 telnet、 
rlogin 和 FTP 等 应 用 是 如 何 使 用 市 外 数据 的 。 除 了 这 样 的 远程 非 活跃 
应 用 之 外 ， 儿 乎 很 少 有 使 用 到 市 外 数据 的 地 方 。 


24.2 TCP 带 外 数据 


TCP 并 没有 真正 的 带 外 数据 ， 不 过 提供 了 我 们 接着 讲解 的 紧急 模 
式 (urgent mode) 。 假 设 一 个 进程 已 经 往 一 个 TCP 套 接 字 写 出 N 字 节 数 
据 ， 而 且 TCP 把 这 些 数 据 排队 在 该 套 接 字 的 发 送 缓冲 区 中 ， 等 着 发 送 
rM EE E JF Eid T MIN 
M FN ° 
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套 接 字 发 送 缓冲 区 
HN oo. 
| 
要 发 送 的 第 一 个 字 攻 要 发 送 的 最 后 一 个 字 节 


图 24-1 含有 待 发 送 数 据 的 套 接 字 发 送 缓 冲 区 


该 进程 接着 以 MSG_00B 标 志 调 用 send 函 数 写 出 一 个 含有 ASCII 字 
符 a 的 单字 和 带 外 数据 : 


send(fd, "a", 1, MSG_OOB); 


TCP 把 这 个 数据 放置 在 该 套 接 字 发 送 缓冲 区 的 下 一 个 可 用 位 置 ， 
并 把 该 连接 的 TCP 紧 急 指针 (urgent pointer) 设置 成 再 下 一 个 可 用 位 
E o 图 24-2 展 示 了 此 时 的 套 接 字 发 送 绥 冲 区 ， 并 有 旦 把 带 外 字 市 标记 
7*}“OOB” ° 


套 接 字 发 送 缓冲 区 


— Qa 


! ! 


要 发 送 的 第 一 个 字 节 归 发 送 的 最 TCP 崇 急 指针 
AE —T 


图 24-2 ”应 用 进程 写 入 1 字 节 带 外 数据 后 的 套 接 字 发 送 缓冲 区 


TCP 紧 急 指针 对 应 一 个 TCP 序 列 号 ， 它 是 使 用 MSG_00B 标 志 写 出 
的 最 后 一 个 数据 字 节 〈 即 带 外 字 节 ) 对 应 的 序列 号 加 1。 正 如 TCPv1 第 
292~-296 页 所 述 ， 这 是 一 个 历史 性 的 决断 ， 现 在 被 所 有 实现 所 模仿 。 
只 要 发 送 端 TCP 和 接收 端 TCP 在 TCP 紧 急 指 针 的 解释 上 达成 一 致 ， 就 不 


会 有 问题 。 


给 定 如 图 24-2 所 示 的 TCP 套 接 字 发 送 缓冲 区 状态 ， 发 送 端 TCP 将 为 
每 发 送 的 下 一 个 分 节 在 TCP 首 部 中 设置 URG 标 志 ， 并 把 紧急 偏 移 
(urgent offset) 字段 设置 为 指向 带 外 字 节 之 后 的 字 节 ， 不 过 该 分 节 可 
能 含 也 可 能 不 含 我 们 标记 为 OOB 的 那个 字 节 。OOB 字 节 是 否 发 送 取决 
于 在 套 接 字 发 送 缓冲 区 中 先 于 它 的 字 节 数 、TCP 准 备 发 送 给 对 端的 分 
节 大 小 以 及 对 端 通告 的 当前 窗口 。 


我 们 使 用 了 “紧急 指针 ”和 “紧急 偏 移 ”这 两 个 术语 。 在 TCP 层 次 上 
它们 是 不 同 的 。TCP 首 部 中 的 16 位 值 称 为 紧急 指针 ， 它 必须 加 上 同一 
个 首部 中 的 序列 号 字段 才能 获得 32 位 的 紧急 指针 。 只 有 在 同一 个 首部 
中 称 为 URG 标 志 的 位 已 经 设置 的 前 提 下 ，TCP 才 会 检查 紧急 偏 移 。 从 
编程 角度 看 ， 我 们 无 需 担 心 这 个 细节 ， 统 一 指称 TCP 紧 急 指 针 束 行 。 


646 


这 是 TCP 紧 急 模 式 的 一 个 重要 特点 : TCP 首部 指出 发 送 端 已 经 进 
入 紧急 模式 〈 即 伴随 紧急 偏 移 的 URG 标 志 已 经 设置 ) ， 但 是 由 紧急 指 
针 所 指 的 实际 数据 字 节 却 不 一 定 随同 送出 。 事 实 上 即使 发 送 端 TCP 因 
流量 控制 而 暂停 发 送 数据 (接收 端的 套 接 字 接收 缓冲 区 已 满 ， 导 致 其 
TCP 向 发 送 端 TCP 通 告 了 一 个 值 为 0 的 窗口 ) ， 紧 急 通 知 照样 不 伴随 任 
何 数 据 地 发 送 〈TCPv2 第 1016 页 ~1017 页 ) ， 就 像 我 们 将 在 图 24-10 和 


图 24-11 看 到 的 那样 。 这 也 是 应 用 进程 使 用 TCP 紧 急 模式 〈 即 带 外 数 
H) 的 一 个 原因 : 即便 数据 的 流动 会 因为 TCP 的 流量 控制 而 停止 ， 紧 
急 通 知 却 总 是 无 障碍 地 发 送 到 对 端 TCP 。 

如 果 我 们 发 送 多 字 节 的 市 外 数据 ， 情 况 义 会 如 何 呢 ? 例如 : 


send(fd, "abc", 3, MSG 00B); 


在 这 个 例子 中 ，TCP 的 紧急 指针 指向 最 后 那个 字 节 紧 后 的 位 置 ， 
也 就 是 说 最 后 那个 字 节 (字母 c) 被 认为 是 带 外 字 节 。 


至 此 我 们 已 经 讲述 了 市 外 数据 的 发 送 ， 下 面 从 接收 端的 角度 查看 


(1) 当 收 到 一 个 设置 了 URG 标 志 的 分 节 时 ， 接 收 端 TCP 检 查 紧 急 指 
针 ， 确 定 它 是 否 指向 新 的 带 外 数据 ， 也 就 是 判断 本 分 节 是 不 是 首 个 到 
达 的 引用 从 发 送 端 到 接收 端的 数据 流 中 特定 字 节 的 紧急 模式 分 节 。 人 发 
送 端 TCP 往 往 发 送 多 个 侣 有 URG 标 志 且 紧急 指针 指 辐 同一 个 数据 字 
的 分 节 (通常 是 在 一 小 段 时 间 内 ) 。 这 些 分 节 中 只 有 第 一 个 到 达 的 会 
导致 通知 接收 进程 有 新 的 带 外 数据 到 达 。 


(2) 当 有 新 的 紧急 指针 到 达 时 ， 接 收 进程 被 通知 到 。 首 先 ， 内 核 给 
接收 套 接 字 的 属 主 进程 发 送 SIGURG 信 和 号， 前提 是 接收 进程 (或 其 他 
进程 ) 曾 调用 fcnt1 或 ioct1 为 这 个 套 接 字 建立 了 属 主 (图 7-20) , 
而 且 该 属 主 进程 已 为 这 个 信号 建立 了 信号 处 理 函 数 。 其 次 ， 如 果 接 收 
进程 阳 塞 在 select 调 用 中 以 等 待 这 个 套 接 字 描 述 符 出 现 一 个 异常 条 
件 ，select 调 用 就 返回 。 


一 旦 有 新 的 紧急 指针 到 达 ， 不 论 由 紧急 指针 指向 的 实际 数据 字 市 
已 经 到 达 接 收 疾 TCP， 这 两 个 潜在 通知 接收 进程 的 手段 整 发 生动 


只 有 一 个 OOB 标 记 ， 如 果 新 的 OOB 字 节 在 旧 的 OOB 字 节 被 读 取 之 
前 就 到 达 ， 旧 的 OOB 字 节 会 被 丢弃 。 


(3) 当 由 紧急 指针 指 癌 的 实际 数据 字 节 a 到达 接收 端 TCP 时 ， 该 数据 
字 节 有 既 可 能 被 拉 出 带 外 ， 也 可 能 被 留 在 带 内 ， 即 在 线 (inline) 留存 。 
SO_00BINLINE 套 接 字 选项 默认 情况 下 是 禁止 的 ， 对 于 这 样 的 接收 端 


ERF, VOBEGEODIPAGBUNGERBETEGERMOARURDE, MLA IER 
的 一 个 独立 的 单字 节 带 外 缓冲 区 (TCPv258986~988 01) 。 接 收 进程 
从 这 个 单字 节 绥 冲 区 读 入 数据 的 唯一 方法 是 指定 MSG_00B 标 志 调 用 
recv ` recvfromskrecvmsg » ZI ASTHJOOB^E v TEIHBJOOB^E T 
被 读 取 之 前 就 到 达 ， 旧 的 OOB 字 节 会 被 丢弃 。 
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然而 如 果 接 收 进程 开启 了 SoO_00BINLINE 套 接 字 选项 ， 那 么 由 
TCP 紧 急 指针 指 癌 的 实际 数据 字 太 将 被 留 在 通常 的 套 接 字 接收 绥 冲 区 
中 。 这 种 情况 下 ， 接 收 进程 不 能 指定 MSG_00B 标 志 读 入 该 数据 字 广 。 
相反 ， 接 收 进程 通过 检查 该 连接 的 带 外 标记 (out-of-band mark) 以 获 
悉 何 时 访问 到 这 个 数据 字 广 ， 就 像 我 们 将 在 24.3 广 讲述 的 那样 。 


发 生 一 些 错 误 是 可 能 的 。 


(1) 如 果 接 收 进程 请 求 读 入 带 外 数据 (通过 指定 MSG_00B 标 
志 ) ， 但 是 对 端 尚未 发 送 任何 带 外 数据 ， 读 入 操作 将 返回 EINVAL。 


(2) 在 接收 进程 已 被 告知 对 端 发 送 了 一 个 带 外 字 节 (通过 SIGURG 
或 select 手 段 ) 的 前 担 下 ， 如 果 接 收 进程 试图 读 入 该 字 节 ， 但 是 该 
字 节 尚未 到 达 ， 读 入 操作 将 返回 EWOULDBLOCK。 接 收 进程 此 时 能 做 
的 仅仅 是 从 套 接 字 接 收 缓冲 区 读 入 数据 (要 是 没有 存放 这 些 数据 的 空 
间 ， 可 能 还 得 丢弃 它们 ) ， 以 便 在 该 缓冲 区 中 腾 出 空间 ， 继 而 允许 对 
wd TCP ALIA ABS TENET ° 


(3) WREE I E CIAR] — T PRECH, BEA BREA E 
EINVAL ° 


(4) 如 果 接 收 进程 已 经 开启 了 So_00BINLINE 套 接 字 选项 ， 后 来 


试图 通过 指定 MSG_00B 标 志 读 入 市 外 数据 ， 读 入 操作 将 返回 
EINVAL ° 


24.2.1 ”使 用 SIGURG 的 简单 例子 


我 们 现在 给 出 一 个 发 送 和 接收 市 外 数据 的 小 例子 。 图 24-3 给 出 了 
发 送 程序 。 


cob/tcpserdil.c 


1 #include "unp.h* 


€ 


= 


3 main(int sarge, char **aàrzv) 


int sockEd; 
i? (arge l- 3) 
err quit ("usage: tccsendol «hosts epert#>"i; 


sockfd = Tcp connect (arjv[21], argv[2]:; 


W-ite(so-kfd, "123", 3); 

pranti(*wrete 3 byces of normal data'*n'!; 
sleep (1); 

Send(ecekfd, "1", 1, NSG COB); 
printi(*wret2 1 by-e of OSB data\n"); 
sleep (1); 

WritslsockEd, "56", 2); 

printf (*wrete 2 byces of norma. data'n'!; 
eleep (1) ; 

Send(scckfd, "7", 1, NSS_COB); 

printt (*wret2 1 hy-e of O^B data\n’l; 
sleep(1}; 

Write(eockEd, "89", 2); 

printt(*wreta 2 bytes of normal data'in'!; 
sleepí1; 


exit (0) ; 


cob'tepsendül.c 


图 24-3 ”简单 的 带 外 发 送 程序 


该 程序 共 发 送 9 个 字 节 ， 每 个 输出 操作 之 间 有 一 个 1 秒 钟 的 
sleep。 间 以 停顿 的 目的 是 让 每 个 write 或 send 的 数据 作为 单个 TCP 
分 韦 在 本 端 发 送 并 在 对 端 接收 。 我 们 将 在 本 章 靠 后 讨论 有 天 带 外 数据 
的 定时 考虑 。 我 们 运行 本 程序 ， 看 到 预期 的 输出 : 


macosx % tcpsend01 freebsd4 9999 


wrote 
wrote 
wrote 
wrote 
wrote 


3 bytes of normal data 
1 byte of OOB data 


2 bytes of normal data 
1 byte of OOB data 
2 bytes of normal data 


图 24-4 给 出 了 接收 程序 。 


oobtepreev0l.c 


1 #include "urp.h" 
2 int listenfd, connfd: 
3 void sic vra[inz]; 
4 int 
5 main(int argc, char **arav) 
6 | 
| int n: 
E caar buff [120] ; 
9 if (argc == J) 
10 listentd = Tcp listen(NULL, argv[11, NULL]; 
11 else if iargc == 3) 
12 listenfd = Tcp listen(argv[1], argv(2], NULL); 
13 else 
14 exxr_quit("usage: teprecv0l [ «host» ] «pcrzé'!; 
15 ccnnfd = Accept (l:stenid, NULL, NULL); 
16 SignaliSIGUNL, sig urg); 
17 Pentl(connfd, P_SETOWN, getpid()!; 
18 ter (5; ; ) {4 
19 if [ (4 = Read(connfd, buff, sizeof (buff)-1)) == 0) { 
20 printf ('receseived ROF\ n"); 
21 exit (0); 
22 } 
23 buffín] = 2; /* null terminate */ 
24 printf (read $0 bytes: $syn", n, buff); 
25 } 
26 | 
4" void 
28 sig urg(int signs) 
29 1 
30 int n: 
31 char buff [220] ; 
32 printf|'SIGURG received'n"!; 
33 n = Recviconnf2, buff, sizeof (biff) -1, MSG OOB); 
34 buf£ín] = ô: /* mull terminata */ 
35 printf|'resd $3 COB byte: te\n", n, buff): 
36 : 
oolvtcnrecv01.c 
Ax HE 
图 24-4 简单 的 带 外 接收 程序 


建立 信号 处 理 画 数 和 套 接 字 属 主 


16~17 
套 接 字 的 属 主 。 


建立 SIGURG 的 信号 处 理 函 数 ， 使 用 fcnt1 设 置 已 连接 


我 们 直到 accept 返 回 之 后 才 建 立信 号 处 理 函 数 。 这 么 做 


FL HOR LaLa 
n uc 


它们 在 TCP 完 成 三 路 握手 之 后 


然而 如 果 我 们 在 调用 accept 之 前 建立 信 


SER ERE Cn BE (本 属性 将 传承 给 已 连接 套 接 
字 ) ， 那 么 如 果 带 外 数据 在 accept 返 回 之 前 到 达 ， 我 们 的 信号 处 理 
函数 将 没有 真正 的 connfd 值 可 用 。 如 采 这 种 情形 对 于 应 用 程序 确实 
重要 ， 它 束 应 该 把 connfd 初 始 化 为 -1， 在 信号 处 理 瑟 数 中 检查 该 值 是 
人 否 为 -1， 硅 为 真 则 简单 地 设置 一 个 标志 ， 供 主 循环 在 accept 返 回 之 后 
今 查 。 男 一 方面 ， 这 可 能 阻塞 accept 调 用 周围 的 信号 ， 但 这 个 问题 
属于 我 们 在 20.5 中 讨论 过 的 信号 充 争 状态 的 范畴 。 


18-25 ”本 进程 从 套 接 字 中 读 ， 显 示 由 read 返 回 的 每 个 字符 串 。 
发 送 进程 终止 连接 后 ， 接 收 进程 随后 终止 。 
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SIGURG 处 理 函 数 
27-36 我 们 的 信号 处 理 函 数 调 用 printf， 通 过 指定 MSG_00B 
标志 读 入 带 外 字 节 ， 然 后 显示 返回 的 数据 。 注 意 ， 我 们 在 recv 调 用 中 


请 求 最 多 100 个 字 节 ， 但 是 我 们 稍 后 看 到 ， 作 为 带 外 数据 返回 的 只 有 1 
NEAT e 


IERI ICTR, ME SORRA AAEM print tA E 
存 。 我 们 这 样 做 只 是 为 了 查看 程序 在 干什么 。 


re 下 面 是 先 运行 本 接收 程序 ， 接 着 运行 图 24-3 中 的 发 送 程序 得 到 的 
Bj nu: 


freebsd4 % tcprecv01 9999 
read 3 bytes: 123 

SIGURG received 

read 1 OOB byte: 4 

read 2 bytes: 56 


SIGURG received 
read 1 OOB byte: 7 
read 2 bytes: 89 
received EOF 


结果 与 我 们 预期 的 一 人 怪 。 发 送 进程 市 外 数据 的 每 次 发 送 产 生化 交 
给 接收 进程 的 SIGURG 信 和 号， 后 者 接着 读 入 单个 市 外 字 广 。 


24.2.2 ”使 用 select 的 简单 例子 


我 们 现在 改 用 select 代 苦 STGURG 信 号 重新 编写 带 外 接收 程序 ， 
如 图 24-5 所 示 。 


colvtcnrecvüz.c 
1 £&inclurde "urp.h" 
2 im 
3 main(int argc, char **argv) 
4{ 
5 int listenfd, conned, n; 
6 cnar bu££ [2C0l ; 
7 fd cec rset, xsat; 
8 if (arge == 2; 
9 dictcntd = Tep_listen(NULL, àrqví[1], NULL}; 
10 elses if (arge zz 3) 
Az lietentd = Top listen(argv|1], arqv[2., NULL); 
12 else 
13 err quit("usage: teprscvO04 [ «host» ] «pcr-f»'!; 
14 connfd ~ Accept (listenfd, NULL. NULL); 
15 F5 ZEs*O(»rser;; 
16 F2 ZE3O(&xset;; 
17 for 4 $4 ) ( 
18 FD SET(connfd, &roct!; 
19 FD SRT(cznofd, &xset|; 
20 Select {cconnfd + 1, &-set, NULL, &xset, NULL); 
21 iz (FD_ISSET(connfd, &xset!!| | 
22 n = Rezv(connfd, buff, sizecf(buf?2)-1, MSG COB); 
23 buff£[n] = 2; /* null terminate */ 
24 printf (*read tà OOR byra: ts\n', m, tuff); 
z5 } 
z6 it (FD_ISSET(comntd, Sroct)) { 
2" if ( [n = Read(connfd, buff, sizeof(buff)-1)) == 0! | 
28 printf ("received #OF\n") ; 
29 exit (0); 
40 ) 
21 buffín] = 2; /* null terminate */ 
32 printf ("read td bytes: ts\n", n, buff); 
33 } 
ag 
35 ， 
oobiteerecvôż.c 


图 24-5 (不 正确 地 ) 使 用 Select 得 到 带 外 数据 通知 的 接收 程序 


15-20 调用 select 等 待 普通 数据 〈 读 集合 rset) 或 带 外 数据 
(异常 集合 xset) 。 每 种 情况 下 都 显示 接收 的 数据 。 


我 们 先 运行 本 程序 ， 接 着 运行 早先 的 发 送 程序 《图 24-3) ， 结 
MERIA PERRA: 


freebsd4 % tcprecv02 9999 
read 3 bytes: 123 


read 1 OOB byte: 4 
recv error: Invalid argument 


问题 是 select 一 直 指 示 一 个 异常 条 件 ， 直 到 进程 的 读 入 越过 市 
外 数据 (TCPv258530~53101) 。 同 一 个 带 外 数据 不 能 读 入 多 次 ， 
为 首次 读 入 之 后 ， 内 核 就 清空 这 个 单字 节 的 缓冲 区 。 再 次 指定 
MSG_00B 标 志 调 用 recv 时 ， 它 将 返回 EINVAL ° 
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解决 办 法 息 只 在 读 入 癌 通 数据 之 后 才 select 异 彰 条 件 。 图 24-6 征 
图 24-5 的 一 个 修订 版 本 ， 它 正确 地 处 理 了 上 述 情 形 。 


ee ——volitcirecviá.c 
1i include "unp.h* 


2 int 

3 mainlint arse, char **arzv) 

4 { 

> int l:stenfd, connf£, n, justreadoob = 0; 

5 char suff (100); 

7 fd set rset, xset; 

3 if (arcc -- 2) 

9 listenfd = Tcp listen(NULL, arsv|l], NULL); 

16 else if (argc == 3! 

11 listenfd = Tcp listen(argv(1], argv[2], NULL); 
12 else 

13 orr_quit ("usage: tecreev03 [ <host> ] <port#>"!; 
14 connfd = Accep-;listenfd, NULL, MJL-): 

15 FD ZERO[Srset); 

16 PD ZBRO!S&xset); 

i7 fnr d sis Du 

18 FD SIT (comida, Sroet)s 

19 if /justreadoob -- 0} 

20 FD SSET(ccnnfd, &xset); 

21 select(conntd + 1, &£rset, NULL, &xeet, NULL); 
22 if (RD TSSET(cornfd, &xset)) [ 

23 n  gmecv(cornfd, suff, sizeof(buff)-1, MSG OO8!; 
24 zutf[n] = 0; /* mull tervinace */ 
25 printf ("read td OCB byte; $3'n", n, suff); 
26 justreaicob = i; 

27 FD CLR(connfd, xset); 

28 } 

29 if {FD_TSSET(rornfd, &rse-)) ( 

30 if {| in = Kead{connfd, buff, sizsof;zuff)-1)) == U) 1 
31 printf ("seccives EOF\n'!; 

32 exit (0l; 

a3 } 

34 suftt{n] ~ 90; /* null terminate */ 
35 zrintf("reaa td bytes: s\n", n, bufEt]; 

36 justreadcoob = 0; 

39 } 

38 ) 

39 ] 


cob/tenrecvü3.c 
图 24-6 ”正确 地 select 异 常 条 件 的 图 24-5 程 序 修订 版 本 


5 声明 一 个 名 为 justreadoob 的 变量 ， 用 于 指示 我 们 是 否 刚 刚 
读 过 融 外 数据 。 这 个 标志 决定 是 否 sSelect 异 常 条 件 。 


26-27 ” 当 设 置 justreadoob 标 志 时 ， 我 们 还 得 在 异常 描述 符 
集中 清除 已 连接 套 接 字 描 述 符 对 应 的 位 。 
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本 程序 现在 可 以 按 预期 的 方式 工作 了 。 


Oo 
Ul 
Ww 


24.3 sockatmarkEÉRH2 


每 当 收 到 一 个 带 外 数据 时 ， 就 有 一 个 与 之 关联 的 带 外 标记 (out- 
of-band mark) 。 这 是 发 送 进程 发 送 带 外 字 节 时 该 字 节 在 发 送 端 普 通 数 
据 流 中 的 位 置 。 在 从 套 接 字 读 入 期 间 ， 接 收 进程 通过 调用 
sockatmark 函 数 确定 是 否 处 于 市 外 标记 。 


#include <sys/socket.h> 


int sockatmark(int sockfd); 


返回 : ZARTGEAMENONUAA, AT RES 


记 则 为 96， 若 出 错 则 为 -1 


本 画 数 是 POSIX 创 造 的 。POSIX 正 在 把 许多 ioct1 请 求 奉 换 成 函 


图 24-7 给 出 了 使 用 常见 的 SIOCATMARK ioct1 完 成 的 本 函数 的 一 
个 实现 。 


ibí/sockatnrark.c 
1 #anclude “unp.h" 
2 int 
3 sockatmark(int td) 
4 f 
int tlaq; 
& IE (icetl(fd, SLUCAIMARK, &flag) < J) 
" return(-1); 
E raturn!fla3 i- 0); 
s} 
lfc hrm nk r 


图 24-7 使 用 ioct1 实 现 的 sockatmark 函 数 


不 管 接收 进程 在 线 (SO_00BINLINE 套 接 字 选项 ) 还 是 带 外 
(MSG_00B 标 志 ) BEES. MMC e Wot 
用 法 之 一 是 接收 进程 特殊 地 对 待 所 有 数据 ， 直 到 越过 


24.3.1 ”例子 
我 们 现在 给 出 一 个 简单 的 例子 说 明 带 外 标记 的 以 下 两 个 特性 


(1) 带 外 标记 总 是 指向 普通 数据 最 后 一 个 字 节 紧 后 的 位 置 。 这 意味 
着 ， 如 果 带 外 数据 在 线 接收 ， 那 么 如 果 下 一 个 待 读 入 的 字 节 是 使 用 
MSG_00B 标 志 发 送 的 ，sockatmark 就 返回 真 。 而 如 果 
SO0_00BINLINE 套 接 字 选 项 没有 开启 ， 那 么 ， 若 下 一 个 每 读 入 的 字 节 
是 跟 在 带 外 数据 后 发 送 的 第 一 个 字 节 ，sockatmark 就 返回 真 。 
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(2) 读 操 作 总 是 停 在 带 外 标记 上 (TCPv2%8519~52001) 。 也 就 是 
说 ， 如 果 在 套 接 字 接收 缓冲 区 中 有 100 个 字 节 ， 不 过 在 带 外 标记 之 前 只 
有 5 个 字 节 ， 而 进程 执行 一 个 请 求 100 个 字 节 的 read 调 用 ， 那 么 返回 的 
是 带 外 标记 之 前 的 5 个 字 节 。 这 种 在 带 外 标记 上 强制 停止 读 操 作 的 做 法 
使 得 进程 能 够 调用 sockatmark 确 定 缓冲 区 指针 是 否 处 于 带 外 标记 。 


图 24-8 是 我 们 的 发 送 程序 。 它 发 送 3 个 字 节 普通 数据 ，1 个 字 节 市 
外 数据 ， 再 跟 1 个 字 节 普通 数据 。 每 个 输出 操作 之 间 没 有 停顿 。 


soblicpsend04.c 


1 #include "unrp.h* 

2 int 

3 main(int argc, char **argv) 

4 4 

5 int sockEd; 

6 ii (arac != 3) 

7 err quit ("usage: tczsend04 «host» cpcrt#2"); 
& sockfd = Tcp ccnnect(argv[1], argv[2]:; 
9 Waite (sockfd, "123", $ 

16 print a ("wrote 3 hy es of ron. datbaNnt i 
11 Send(scckfüd, "4", 1, NSS COR]; 

12 print=(*wrct2 1 by-e of OB data'n'!; 

13 Write(sockfd, "S*, 1!; 

14 printf ("wrota 1 byte of normal data\n"); 
is exit (0); 

16 ] 


cob/icpsendüM.c 
图 24-8 ”发 送 程序 


图 24-9 是 接收 程序 。 它 既 不 使 用 SIGURG 信 号 也 不 使 用 select 。 
它 调 用 sockatmark 来 确定 何 时 碰 到 带 外 字 节 。 


-eob/tcorecviM.c 


1 Hiuclude "uiup.l* 

2 int 

3 main(int argc, char **argu) 

a4 

5 int l-atenfd. connfz, n, cn=1; 

6 char buff (100) ; 

7 i= (argc == 2) 

a lisrenfd = Tep_} istan (MLL, argv[i), WLL); 

S else if largo == 3! 

16 listenfd = Tcp listen(argvíll, arev[2]1, NULLI ; 
11 else 

1a arr quit("usaje: toezrecvo4 [ «boets | <perc#="); 
13 Setsuckopt (Liscenfd, SOL SOCKET, SO OORINLINE, kon, siveof(un);; 
14 OCT = A cep Listen, MILL, MIL) ; 

is sleep (S); 

16 Kor p oro] { 

17 it /Sockatmark(cornEd!] 

16 rzrintf("at 906 mwark'*u"); 

19 if | in = Read(cocnEd, suff, sizcof (suff) 1)} == C! 
20 grinLf("rzecElvel *OFVYuü"!; 

21 exit (0l; 

22 } 

23 suff [n] = 0; /* null terminate */ 

24 printf ("read 3d bytes: ts\n", n, buff); 

z } 


oobytenrecv04.c 


用 sockatmark 的 接收 程序 


图 24-9 调 
设置 SO0_00BINLINE 套 接 字 选项 


13 ”我 们 希望 在 线 接收 带 外 数据 ， 所 以 必须 开启 S0_O0BINLINE 
套 接 字 选 项 。 但 是 如 果 我 们 等 到 accept 返 回 之 后 再 在 已 连接 套 接 字 
上 开启 这 个 选项 ， 那 时 三 路 握手 已 经 完成 ， 带 外 数据 也 可 能 已 经 到 
达 。 因 此 我 们 必须 在 监听 套 接 字 上 开启 这 个 选项 ， 因 为 我 们 知道 所 有 
套 接 字 选 项 会 从 监听 套 接 字 传 承 给 已 连接 套 接 字 (7.477) ° 


连接 接受 后 sleep 


14-15 ”接受 连 毛 之 后 ， 接 收 进 程 sleep 一 段 时 间 以 接收 来 目 发 
送 进 程 的 所 有 数据 。 这 么 做 使 得 我 们 能 够 展示 read 停 在 之 外 标记 上 ， 
即使 套 接 字 接 收 缓冲 区 中 已 经 有 额外 数据 也 不 受 影响 。 


由 四 
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读 入 来 自发 送 进程 的 所 有 数据 


16-25 程序 循环 调用 read， 并 显示 收 到 的 数据 。 不 过 在 调用 
read 之 前 ， 先 调用 sockatmark 检 查 缓冲 区 指针 是 否 处 于 带 外 标记 。 


我 们 运行 本 程序 得 到 如 下 输出 : 


freebsd4 % tcprecv04 6666 
read 3 bytes: 123 
at OOB mark 


read 2 bytes: 45 
recvived EOF 


尽管 接收 进程 首次 调用 read 时 接收 端 TCP 已 经 接收 了 所 有 数据 
(因为 接收 进程 调用 了 sleep) ,但 是 首次 read 调 用 因 遇 到 市 外 标记 
而 仅仅 返回 3 个 字 节 。 下 一 个 读 入 的 字 节 是 带 外 字 节 UR . AA 
我 们 早已 告知 内 核 在 线 放置 市 外 数据 。 


24.3.2 ”例子 

我 们 现在 给 出 另 一 个 简单 的 例子 ， 用 于 展示 早先 提 到 过 的 带 外 数 
据 的 另外 两 个 特性 。 

(1) 即使 因为 流量 控制 而 停止 发 送 数据 了 ，TCP 仍 然 发 送 带 外 数据 
的 通知 ( 即 它 的 紧急 指针 ) 。 


(2) 在 市 外 数据 到 达 之 前 ， 接 收 进 程 可 能 被 通知 说 发 送 进程 已 经 发 
送 了 带 外 数据 (使 用 SIGURG 信 和 号 或 通过 select) 。 如 果 接 收 进程 接 
着 指定 MSG_00B 调 用 recv， 而 带 外 数据 却 尚 未 到 达 ，recv 将 返回 
EWOULDBLOCK 错 误 。 


图 24-10 是 发 送 程序 。 


cobficpsend0S.c 


1 #incluce "ur:p. hi" 

2 int 

* main(int argc, cher **argu) 

VE 

5 int Ssockfd, size; 

6 char buff [15334] ; 

7 if (argc !- 3! 

8 err nuit("usage: tcpsenz205 chosr» eport£&s*!; 
4 scckfd = Top_comnect (argv[1), argv [2] 1; 

10 Sizo = 32768; 

11 Setsockoptiscckfd, SCL SOCKET, SO_SNDDUF, &size, sizeoEfisize!): 
12 Write(sockfd, buff, 16301); 

13 priatfi'wrote 16384 bytes of normal data\n"!; 
14 sleep (S$); 

15 Send(socklF3, *4", 1, MSG DOR! ; 

16 printf|'wrote 1 byte of OOB data\n") ; 

17 Write(sockfd, buff, 1024); 

18 printt|'wrote 1024 bytes of normal data\n"); 

19 exitio); 

20 | 


cobfiepsendü$. c 
图 24-10 ”发 送 程序 


9-19 该 进程 把 它 的 套 接 字 发 送 缓冲 区 大 小 设置 为 32768， 写 出 
16384 字 节 的 普通 数据 ， 然 后 睡眠 5 秒 钟 。 我 们 稍 后 将 看 到 接收 进程 把 
它 的 套 接 字 接收 缓冲 区 大 小 设置 为 4096， 因 此 发 送 进程 的 这 些 操作 确 
保 发 送 端 TCP 填 满 接收 端的 套 接 字 接 收 缓冲 区 。 发 送 进程 接着 发 送 单 
字 节 的 带 外 数据 ， 后 跟 1024 字 节 的 普通 数据 ， 然 后 终止 。 


图 24-11 给 出 了 接收 程序 。 


-eob/tcorecvüs. c 


1 Hinclude "unp.h* 


2 int li stenfd, aGwmn^c; 

3 void 3:9 urgiint): 

4 int 

5 main(int argc, char **aàrqv) 

6 { 

7 int size 

A i^ (arge ss» 2) 

s listenfd = Tep listen(NULL, arz7v|[-.], NULL); 

10 cloc if [args mm 3} 

11 listenfd = Tcp listen(argvill. argvi2], NULLI ; 
12 else 

13 err quit ("usages teprecvOS [ chests ] epcrt#ə"); 
14 size = 4C95; 

is Setsockopt (Listenfdad, SOL SOCKET, sD RCVBUF, &sizs, sizeof!size,)); 
16 connfd = Accop-;liatentd,. NULL, NJLL); 

17 Signal(SIGZRG, sig u-g:; 

18 Fenrl(cocnfd, * SETOWN, getpidtl ); 

19 for (;;) 

20 zauge |); 

21 

22 void 

25 sig urg(int s | erm) 

24 1 

25 int a; 

26 char suff (20481; 

27 p-intz(*SIGURG received\n"! ; 

28 noe Recviconifd, buff, sizeof (buff) -1, WSG_OOR) ; 
22 buff[n] = J; /* null terminate */ 
30 printt(*read tà OOB byte\n", 2]; 

31] 


oobrteprecvüs. c 
图 24-11 ”接收 程序 


14-20 接收 进程 把 监听 套 接 字 接收 缓冲 区 大 小 设置 为 4096。 连 
接 建立 之 后 ， 这 个 大 小 将 传承 给 已 连接 套 接 字 。 接 收 进程 接着 
accept 连 接 ， 建 立 一 个 STIGURG 信 号 处 理 函 数 ， 并 建立 套 接 字 的 属 
主 。 主 控 程序 然后 在 一 个 无 穷 循 环 中 调用 pause。 


22~31 信和 号 处 理 函 数 调 用 recv 读 入 带 外 数据 。 


接着 局 动 发 送 进程 ， 以 下 是 来 目 发 送 进程 
JD : 


macosx % tcpsend05 freebsd4 5555 
wrote 16384 bytes of normal data 


wrote 1 byte of OOB data 
wrote 1024 bytes of normal data 

正如 所 期 ， 所 有 这 些 数据 适合 发 送 进程 套 接 字 发 送 缓冲 区 的 大 
小 ， 发 送 进程 随后 终止 。 以 下 十 来 目 接收 进程 的 输出 : 


freebsd4 % tcprecv05 5555 
SIGURG received 
recv error: Resource temporarily unavailable 


H3 averr_sys aN AY A BY DY FEAGAIN, 
EAGAIN 等 同 于 FreeBSD 中 的 ENWOULDBLOCK。 发 送 端 TCP 向 接收 端 
TCP 发 送 了 带 外 通知 ， 由 此 产生 递交 给 接收 进程 的 SIGURG 信 和 号。 然而 
当 接 收 进程 指定 MSG_00B 标 志 调 用 recv 时 ， 相 应 带 外 字 广 不 能 读 
A? 


_ 解 决 办 法 是 让 接收 进程 通过 读 入 已 排队 的 普通 数据 ， 在 僚 接 字 接 
收 绥 冲 区 中 腾 出 空间 。 这 将 导致 接收 问 TCP 同 发 送 吕 通告 一 个 非 零 的 
AO, RAR INTE AR hig ACIS TH DET ° 
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我 们 指出 源 自 Berkeley 的 实现 中 的 两 个 相关 事情 (TCPv228 1016~ 
1017 页 ) 。 首 移 ， 即 使 套 接 字 发 送 缓冲 区 已 满 ， 内 核 也 总 能 从 发 送 进 
程 接受 将 发 送 到 对 端的 一 个 带 外 字 节 。 其 次 ， 当 发 送 进程 发 送 一 个 带 
外 字 节 时 ， 一 个 含有 紧急 通知 的 TCP 分 节 将 被 立刻 发 送 。 所 有 正常 的 
TCP 输 出 检查 (Nagle 算 法 、 无 义 窗口 避免 等 ) 都 被 略 过 。 


24.3.3 ”例子 


我 们 的 下 一 个 例子 展示 了 一 个 给 定 TCP 连 接 只 有 一 个 这 外 标记 ， 
如 果 在 接收 进程 读 入 某 个 现 有 市 外 数据 之 前 有 新 的 带 外 数据 到 达 ， 先 
前 的 标记 就 丢失 。 


图 24-12 是 发 送 程序 ， 它 与 图 24-8 相 似 ， 增 加 了 用 于 发 送 带 外 数据 
的 另 一 个 send 调 用 ， 后 跟 用 于 发 送 普通 数据 的 另 一 个 write 调用 。 


cob/tcpsendüf.c 
1 dinclude "ur.p. hi" 
nt 
main(int argc, char **argv) 
int soczktd; 


6 if (argc != 3) 
err zuit("usage: tepsensos «host» «portfs*! 


8 scckfd = Tcp connezt (argv [ll, argv 21!; 
S Write(socktd, "123", 31; 
10 printf|'wrote 2 sytes of normal data\n"); 


Sendicockfd, *4", 1, MSG_90B}; 


12 printfi'wrote 1 byte of OOB data\n") ; 

13 Write(sockfd, "5", 1); 

14 pristfitwrobe 1 byte of noma] Gabaxn") ; 
15 Sendisock(d, "E", 1, MSG DOR! ; 

16 printfi'wrote 1 byte of COB déta\n") ; 

17 Write(sockfd, "7", 1); 

1s printf|'wrote 1 syte of normal data\n"); 
ig exitio); 

20 : 


cob/tepsendüt. c 


图 24-12 APR AIAN Mi bE 


各 个 输出 调用 之 间 没 有 停顿 ， 使 得 所 有 数据 能 够 迅速 地 发 送 到 接 
收 端 TCP ° 


接收 程序 就 古 图 24-9 所 示 的 程序 ， 它 在 接受 连接 之 后 睡眠 5 秒 钟 ， 
以 允许 来 目 发送 端 的 数据 到 达 接 收 端 TCP。 以 下 是 接收 进程 的 输出 : 


freebsd4 % tcprecv06 5555 
read 5 bytes: 12345 
at OOB mark 


read 2 bytes: 67 
received EOF 


Bo MED (6) WIRES TENEIRE (4 到 来 时 
aa o 正 像 我 们 所 说 ， 每 个 TCP 连接 最 多 只 有 一 个 市 外 标 
i 


24.4 TCP 带 外 数据 小 结 


至 此 我 们 使 用 市 外 数据 的 所 有 例子 都 是 简 易 的 。 不 幸 的 是 ， 当 我 
们 考虑 可 能 出 现 的 定时 间 题 时 ， 融 外 数据 将 变 得 烷 杂 起 来 。 首 先 要 考 
虑 的 一 点 是 市 外 数据 概念 实际 上 回 接 收 端 传达 三 个 不 同 的 信息 。 


(1) 发 送 疹 进入 紧急 模式 这 个 事实 。 接 收 进程 得 以 通知 这 个 事实 的 
手段 不 外 乎 SIGURG 信 和 号 或 select 调 用 。 本 通知 在 发 送 进程 发 送 带 外 
字 世 后 由 发 送 端 TCP 立 即 发 送 ， 因 为 我 们 在 图 24-11 中 看 到 ， 即 使 往 接 
收 冯 的 任何 数据 发 送 因 流量 控制 而 停 上 了 ，TCP 仍 然 发 送 本 通知 。 本 
人 以 处 理 接 收 的 任何 后 继 
数据 。 


(2) 这 外 字 下 的 位 置 ， 也 就 是 它 相对 于 来 自发 送 端的 其 余数 据 的 发 
送 位 置 : 市 外 标记 。 


(3) 带 外 字 节 的 实际 值 。 既 然 TCP 是 一 个 不 解释 应 用 进程 所 发 送 数 
JRBU-E TM, Rob TB] Die EAB AE o 


对 于 TCP 的 紧急 模式 ， 我 们 可 以 认为 URG 标 志 是 通知 〈 信 息 1) ， 
紧急 指针 是 带 外 标记 〈 信 息 2) ， 数 据 字 廊 是 其 本 身 (信息 3) 。 


与 这 个 带 外 数据 概念 相关 的 问题 有 : (a) 每 个 连接 只 有 一 个 TCP 
紧急 指针 ， (b) 每 个 连接 只 有 一 个 带 外 标记 ， (0 每 个 连接 只 有 一 
个 单字 节 的 市 外 绥 冲 区 《该 缓冲 区 只 有 在 数据 非 在 线 读 入 时 才 需 考 
虑 ) 。 我 们 在 图 24-12 中 看 到 ， 新 到 达标 记 黎 写 接收 进程 尚未 碰 到 的 任 
何 先前 的 标记 。 如 果 带 外 数据 是 在 线 读 入 的 ， 那 么 当 新 的 带 外 数据 到 
qa E ae ae 不 过 它们 的 标记 却 因 被 新 的 标记 取 


市 外 数据 的 一 个 荫 见 用 途 体 现在 rlogin 程 序 中 。 当 客户 中 断 运 
行 在 服务 器 主机 上 的 程序 时 〈TCPv1 第 393~394 页 ) ， 服 务 器 需要 告 
HEPREAA CER aH, AACE EMRA ae 
发 送 到 客户 的 输出 最 多 有 一 个 窗口 的 大 小 。 服 务 器 向 客户 发 送 一 个 特 
殊 字 市 ， 告 知 后 者 清 刷 所 有 这 些 输出 (在 客户 看 来 是 输入 ) ， 这 个 特 
殊 字 市 瑟 作 为 带 外 数据 发 送 。 客 户 收 到 由 市 外 数据 引发 的 SIGURG 信 


号 后 ， 束 从 套 接 字 中 读 入 直到 磁 到 市 外 标记 ， 并 丢弃 到 标记 之 前 的 所 
有 数据 。 《\TCPv1 第 398~401 页 有 一 个 如 此 使 用 带 外 数据 的 例子 ， 伴 
以 相应 的 tcpdump 输 出 。) 这 种 情形 下 即使 服务 右 相 继 地 快速 发 送 多 
个 带 外 字 节 ， 客 户 也 不 受 影响， 因为 客户 只 是 读 到 最 后 一 个 标记 为 
止 ， 并 丢弃 所 有 读 入 的 数据 。 
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总 之 ， 带 外 数据 是 否 有 用 取决 于 应 用 程序 使 用 它 的 目的 。 如 果 目 

的 是 告知 对 端 丢弃 直到 标记 处 的 普通 数据 ， 那 么 丢失 一 个 中 间 带 外 字 
节 及 其 相应 的 标记 不 会 有 什么 不 良 后 果 。 但 是 如 果 不 丢 失 带 外 字 节 本 
身 很 重要 ， 那 么 必须 在 线 接收 这 些 数据 。 男 外 ， 作 为 带 外 数据 发 送 的 
数据 字 节 应 该 区 别 于 普通 数据 ， 因 为 当 有 新 的 标记 到 达 时 ， 中 间 的 标 
记 将 被 覆 写 ， 从 而 事实 上 把 带 外 字 节 混杂 在 普通 数据 之 中 。 举 例 来 
说 ，telnet 在 客户 和 服务 器 之 间 普 通 的 数据 流 中 发 送 telnet 自 己 的 
命令 ， 手 段 是 把 值 为 255 的 一 个 字 节 作为 telnet 命 令 的 前 级 字 节 。 

( 值 为 255 的 单个 字 节 作为 数据 发 送 需 要 2 个 相继 的 值 为 255 的 字 节 。) 
这 么 做 使 得 telnet 能 够 区 分 其 命令 和 普通 用 户 数据 ， 不 过 要 求 客户 
进程 和 服务 器 进程 处 理 每 个 数据 字 节 以 寻找 命令 。 


245 PURSE De RRO 


RIEKE E A RR AY EER A PAR a EB eT AC ela] 5. 
re o REE ER 2 n] DA Ac By ig EHLERS ag BJ 8S f KEE E 
7% [9] 


FESR HUS AZ Bii efl P pet Ho BA. BASE] 
使 用 TCP 的 保持 存活 特性 (SO_KEEPALIVE 套 接 字 选项 ) 来 提供 这 种 
功能 ， 然 而 TCP 得 在 连接 已 经 闲置 2 小 时 之 后 才 发 送 一 个 保持 存活 探测 
段 。 意 识 到 这 一 点 以 后 ， 他 们 的 下 一 个 问题 是 如 何 把 保持 存活 参数 改 
为 一 个 小 得 多 的 值 (往往 是 在 秒 钟 的 量 级 ) ， 以 便 更 快 地 检测 到 失 
效 。 尽 管 缩短 TCP 的 保持 存活 定时 器 参数 在 许多 系统 上 确实 可 行 (UL 
TCPV1 的 附录 E) ， 但 是 这 些 参数 通常 是 按照 内 核 而 不 是 按照 每 个 套 接 
字 维 护 的 ， 因 此 改动 它们 将 影响 所 有 开启 该 选项 的 套 接 字 。 男 外 保持 
存活 选项 的 用 意 绝 不 是 这 个 目的 (高 频率 地 轮 询 ) 。 


其 次 ， 两 个 端 系统 之 间 短 暂 的 连接 性 丢失 并 非 总 是 坏事 。TCP 一 
开始 承 设 计 成 能 够 对 付 临 时 断 连 ， 而 源 目 Berkeley 的 TCP 实 现 将 重 传 8 
一 10 分 钟 才 放 弃 某 个 连接 。 较 新 的 IP 路 由 协议 (例如 OSPF) 能 够 发 现 
链接 的 失效 ， 并 且 有 可 能 在 短 时 间 内 ( 壁 如 在 秒 钟 量 级 上 ) 启用 候选 
的 路 径 。 因 此 应 用 程序 开发 人 员 必 须 审查 想 要 引入 心 搏 机 制 的 具体 应 
用 ， 确 定 在 没有 上 听 到 对 端 应 答 的 持续 时 间 超 过 5~10 s 之 后 终止 相应 连 
Ro ue | 有些 应 用 系统 需要 这 种 功能 ， 不 过 大 多 数 却 并 

‘ii o 


我 们 将 使 用 TCP 的 紧急 模式 周期 地 轮 询 对 端 ; 在 下 面 的 讲解 中 我 
们 假设 每 1 秒 钟 轮 询 一 次 ， 若 持续 5 秒 钟 没有 听 到 对 端 应 答 则 认为 对 端 
已 不 再 存活 ， 不 过 这 些 值 可 以 由 应 用 程序 改动 。 图 24-13 展 示 了 客户 和 
服务 器 的 天 系 。 
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TE (4-+ent oS] 2xXit; 
send (MSG OOE!:; 
- alarmit); 
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图 24-13 “使 用 带 外 数据 的 客户 /服务 器 心 搏 机 制 


在 这 个 例子 中 ， 客 户 每 隔 1 秒 钟 癌 服务 器 发 送 一 个 带 外 字 节 ， 服 务 
器 收取 该 字 节 将 导致 它 癌 客户 发 送 回 一 个 带 外 字 节 。 每 端 都 需要 知道 
对 端 是 否 不 复 存 在 或 者 不 再 可 达 。 客 户 和 服务 器 每 1 秒 钟 递增 它们 的 
cnt 变 量 一 次 ， 每 收 到 一 个 带 外 字 节 又 把 该 变量 重 置 为 0。 如 果 该 计数 
器 达到 5 〈 也 就 是 说 本 进程 已 有 5 秒 钟 没有 收 到 来 自 对 端的 带 外 字 
节 ) ， 那 就 认定 连接 失效 。 当 有 带 外 字 节 到 达 时 ， 客 户 和 服务 器 都 使 
用 SIGURG 信 号 得 以 通知 。 我 们 在 该 图 中 间 指 出 : 数据 、 回 送 数据 和 
带 外 字 节 都 通过 单个 TCP 连 接 交 换 。 

我 们 的 客户 程序 main 函 数 来 自 图 5-4， 没 有 改动 。 我 们 的 
r_c1i 函 数 (我 们 没有 给 出 ) 与 图 6-13 的 版 本 相 比 只 有 3 处 简单 的 改 
4 o 


(1) YEXE A forf, USH3xfljheartbeat cliERZix B 
客户 的 心 搏 特性 : 


heartbeat_cli(sockfd, 1, 5); 


”其 中 第 二 个 参数 是 以 秒 钟 为 单位 的 轮 询 频 率 ， 第 三 个 参数 是 放弃 
当前 连接 之 前 应 该 经 历 的 持续 无 响应 轮 询 次 数 。 


(2) 如 果 select 调 用 返回 EINTR 错 误 ， 我 们 continue 到 循环 开 
台 处 再 次 调用 select。 注 意图 24-13 中 客户 现在 捕获 2 个 信号: 


SIGALRM 和 SIGURG， 因 此 我 们 必须 准备 好 处 理 被 中 断 的 系统 调用 。 

(3) 我 们 调用 writen 而 不 是 fputs 往 标准 输出 写 出 回 送 的 文本 
行 。 这 么 做 是 因为 我 们 在 捕获 2 个 信号 ， 它 们 可 能 中 断 慢 系统 调用 ， 而 
有 正确 地 处 理 被 中 断 的 系统 调用 [Korn 
and Vo 1991 


图 24-14 给 出 了 为 客户 程序 提供 心 搏 功 能 的 3 个 函数 。 


cob trecribeatci.c 
1 $include "urp.h" 


2 static int servfd; 

3 static int nsen; /* senis bet wees) eadh alaru */ 

4 static int maxnprobes; /* #probes w/ro response before quit */ 
5 etatic int nproczes; /* #probes einez last server rseponee */ 
6 static voic siz uralinz). sig alrm(int): 

7 void 

8 heartbeat clilint servfd a-g. int nsec arg, int maxnprobes_azg! 

9 : 

10 servfd ~ servf2 arg; /* set globals for signal handlers */ 
11 iE ( (meec = ncec_arg) < 1! 

12 nsec = 4; 

13 iE ( (maxnprobes = maxuprubes arg) < msec) 

14 maxnprcbas - nsec; 

15 probes = C: 

16 Simal 1S1GURS, sig urg!; 

17 Fcntl(servfd, P SETOWN, qetpid()); 

19 Signal (SIGALKM, 3:3 almi; 

19 alarm(naec) ; 

20 : 


21 static voic 
22 sig urg(in sign) 


23 | 

FL! int nr 

25 char OF 

26 it ( (n = reev(servtd, &c, 1, MEC OCBI) < 0) f 

27 i= [errns !- EWOULDBLCCK) 

2R REK sys ("recy error"); 

29 } 

30 nprobes = Cr /* reset counter */ 

31 return; /* may interrupt client coce */ 
32 } 


33 static voic 
34 sig alrm(irt signe) 


35 | 

36 iE (4«nprobee > maxnprobes! 

37 fprirtfÉ[stderr, ‘server is wnreachable\n") ; 

aR txit (0) ; 

39 } 

40 Sendicervid, "1", 1, MEG JOB, ; 

41 alarm(ngec) ; 

42 return; /* may interrupt cliert code */ 
43 


rer een d euatei i: 
图 24-14 “客户 程序 心 搏 画 数 
全 局 变量 


2-5 ”前 3 个 变量 是 heartbeat_cli 函 数 参数 的 副本 : Bee 
xf 〈 信 号 处 理 函 数 用 它 来 发 送 和 接收 带 外 数据 ) 、SIGALRM 的 频 


R` TEA PUA ARS a BOD SZ BI RE CARS n HIR] DY 
SIGALRM 总 数 。 变 量 nprobes 计 量 从 收 到 来 自 服务 器 的 最 后 一 个 应 答 
以 来 处 理 的 SIGALRM 数 目 。 


heartbeat cliHER2X 


7-20 heartbeat cli/ZWe ejt SZ 2ASIGURGFI 
SIGALRM 建 立信 号 处 理 函 数 ， 并 把 套 接 字 的 属 主 设置 为 本 进程 ID。 执 
行 alarm 以 调度 第 一 个 SIGALRM ° 


SIGURG 处 理 函 数 


本 信和 号 在 某 个 带 外 通知 到 达 时 产生 。 我 们 党 试 读 入 相应 
2 ， 不 过 如 果 它 还 没有 到 达 (EWOULDBLOCK) ， 那 也 没有 
关系 。 m 我 们 不 采用 在 线 接收 带 外 数据 方式 ， 因为 这 种 方 LAF 
扰 客 户 p 它 的 正常 数据 。 


既然 服务 絮 仍 然 存活 着 ， 我 们 把 nprobes 重 置 为 0。 
SIGALRMZAPZEER E 

33-43 本 信号 以 恒定 的 间隔 产生 。 递 增 计 数 器 nprobes， 如 果 
达到 maxnprobes， 我 们 就 认定 服务 器 主机 或 者 已 经 崩溃 ， 或 者 不 再 
可 达 。 在 本 例子 中 我 们 简单 地 结束 客户 进程 ， 不 过 也 可 以 采用 其 他 设 
th: 可 以 给 主 控 制 循环 发 送 一 个 信号 ， 或 者 给 heartbeat_c1li 增 设 


一 个 用 于 指定 一 个 客户 画 数 的 参数 ， 当 服务 器 看 来 不 复 存活 时 调用 该 
客户 画 数 。 


作为 带 外 数据 发 送 一 个 含有 字符 1 的 字 节 〈 该 值 没有 任何 隐 含 意 
义 ) ， 再 执行 alarm 调 度 TENz 


我 们 的 服务 器 程序 main 函 数 与 图 5-12 的 一 样 。 我 们 的 Str_echo 
函数 与 图 5-3 的 相 比 只 有 1 处 改动 ， 即 在 for 循 环 前 加 入 为 服务 器 初始 
化 心 搏 函 数 的 如 下 行 : 


heartbeat_serv(sockfd, 1, 5); 


[24-1525 Hh T ARS ately DEEN RL ° 


oolhecaribeatserv.c 


1 Hiuclude "unp.h* 

2 static int  servfd; 

3 Etatic int nsec; /* tseconzs bstwean each alarm */ 

4 static int  raxnalarms, /* £alarns w/ro client probe before quit */ 
S static: int «pres; /* kalarüs since last client probe */ 
6 static void s-g urgíinc), sig alrm/;in-): 

7 void 

0 keartbeat se-v[int servfd arg. irt nsec arg, int maxnalsrms arg! 
AE! 

10 servfd = servfd arg; /* set globals for signal handlers */ 
11 a= { (msec = nsec arg) < 1; 

12 asec = 1; 

13 i” ( (maxna aris = maxnielar "s arg) € nsec) 

14 maxnalarms = nssc; 

15 Signzl(SICJRZ, sig urg;; 

1C Tcentl(serv£d, F SDTOWN,. getpid!)); 

17 Signal (SIGALRM, sig alru'; 

1é elaru(nssc) ; 

is ] 


20 scstic void 
21 sig urz(int sigmo) 


22 4 

23 int nj 

24 char E 

25 i= ( (n = rezv(servfd, &c, 1, M3G OOB!) « 0) | 

26 if ferrna t= RWOULDELOCK) 

27 err sysi"recv errcr"); 

26 } 

29 Send(servfd, &c, 1, M3G O^OB); /* echo back oct-of-Lard byte */ 
30 nprohbes = 2; /* reser "omrer */ 

31 return; /* may interrup- server code */ 
32 ) 


3 static void 
34 sig a-rm(-nt signo! 


35 { 

36 i= (((nprozes > maxnalarms; { 

37 zrinzf("no probes from client\n") , 

AR exit (oi; 

39 ) 

20 élarm(nsec) ; 

41 return; /* nay inter-upt server code */ 
a2 ) 


alils teaser. 


图 24-15 ”服务 器 程序 心 搏 函 数 
heartbeat servERZN 


7-19 FEARS, ERÉtheartbeat servJL3E EZ F HORY 
台 化 函数 一 样 。 


SIGURG 处 理 函 数 


20-32 服务 器 收 到 一 个 带 外 通知 后 就 尝试 读 入 相应 的 带 外 字 
节 。 就 像 客 户 一 样 ， 如 果 该 带 外 字 节 还 没有 到 达 ， 那 也 没有 什么 关 
系 。 服 务 器 把 读 入 的 带 外 字 节 作为 带 外 数据 回 送 给 客户 。 注 意 ， 如 果 
recviX[S|EWOULDBLOCKifix, PARIS Schl eft Amar 
么 。 有 既然 我 们 不 把 带 外 字 节 的 值 用 于 任何 目的 ， 这 么 处 置 就 不 会 有 问 
题 。 重 要 的 是 发 送 1 字 衣 的 带 外 数据 本 身 ， 而 不 管 该 字 节 到 底 是 什么 。 
既然 刚 收 到 客户 仍然 存活 着 的 通知 ， 我 们 把 nprobes 重 置 为 0。 


SIGALRM 处 理 画 数 


33-42 递增 nprobes， 如 采 达 到 由 调用 者 指定 的 maxnalarms 
值 ， 那 束 终 止 服 务 需 进 程 ， 否 则 调度 下 一 个 SIGALRM ° 


24.6 ”小 结 


TCP 没 有 真正 的 带 外 数据 ， 不 过 提供 紧急 模式 和 紧急 指 守 。 一 旦 
发 送 疹 进 入 紧急 模式 ， 紧 急 指针 吏 出 现在 发 送 到 对 端的 分 节 中 的 TCP 
首部 中 。 连 接 的 对 端 收取 该 指针 是 在 告知 接收 进程 发 送 端 已 经 进入 紧 
急 模 式 ， 而 且 该 指针 指向 紧急 数据 的 最 后 一 个 子 节 。 然 而 所 有 数据 的 
发 送 仍然 受 TCP 正 常 的 流量 控制 文 配 。 


套 接 字 API 把 TCP 的 紧急 模式 映射 成 所 谓 的 市 外 数据 。 发 送 进程 通 
过 指定 MSG_00B 标 志 调 用 send 让 发 送 端 进入 紧急 模式 。 该 调用 中 的 
最 后 一 个 数据 字 节 被 认为 是 带 外 字 节 。 接 收 端 TCP 收 到 新 的 紧急 指针 
后 ， 或 者 通过 发 送 SIGURG 信 号 ， 或 者 通过 由 select 返 回 套 接 字 有 了 异 
常 条 件 待 处 理 的 指示 ， 让 接收 进程 得 以 通知 。 上 默认 情况 下 ， 接 收 端 
TCP 把 带 外 字 节 从 普通 数据 流 中 取出 存放 到 上 自己 的 单字 节 带 外 缓冲 
区 ， 供 接收 进程 通过 指定 MSG_00B 标 志 调 用 recv 读 了 到。 接收 进程 也 
可 以 开启 S0_00BINLINE 套 接 字 选项 ， 这 种 情况 下 ， 带 外 字 市 被 留 在 
普通 数据 流 中 。 不 管 接收 进程 使 用 哪 种 方法 读 取 带 外 字 节 ， 套 接 字 层 
都 在 数据 流 中 维护 一 个 带 外 标记 ， 并 且 不 允许 单个 输入 操作 读 过 这 个 
标记 。 接 收 进程 通过 调用 sockatmark 函 数 确 定 它 是 否 已 经 到 达 该 标 
记 。 

带 外 数据 未 被 广泛 地 使 用 。telnet 和 rlogin 使 用 它 ，FTP 也 使 
用 它 ， 它 们 使 用 带 外 数据 是 为 了 通知 远 端 有 有 异常 情况 〈 如 客户 中 断 ) 
发 生 ， 而 且 服 务 器 丢弃 带 外 标记 前 接收 的 所 有 输入 。 


习题 
24.1 在 如 下 单个 函数 调用 


send(fd, "ab", 2, MSG 00B); 


AURI P PA ER SC Val FR 


send(fd, "a", 1, MSG_OOB); 
send(fd, "b", 1, MSG 00B); 


之 间 存 在 差异 吗 ? 
24.2 重新 编写 图 24-6 中 的 程序 ， 改 用 po11 人 代替 select。 
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四 本 世 为 第 2 版 内 容 ， 保 留 在 此 。 译 者 注 


第 25 章 ”信号 驱动 式 IO 


25.1 概述 


信号 张 动 式 IO 是 指 进程 预先 告知 内 核 ， 使 得 当 某 个 描述 符 上 发 生 
某 事 时 ， 内 核 使 用 信号 通知 相关 进程 。 它 在 历史 上 曾 被 称 为 异步 IO 
(asynchronous I/O) ， 不 过 我 们 讲解 的 信号 驱动 式 1/O 不 是 真正 的 异步 
IO。 后 者 通常 定义 为 进程 执行 WO 系统 调用 〈 璧 如 读 或 写 ) 告知 内 核 
启动 某 个 IO 操作 ， 内 核 启动 VO 操作 后 立即 返回 到 进程 。 进 程 在 VO 操 
作 发 生 期 间 继 续 执 行 。 当 操作 完成 或 遇 到 错误 时 ， 内 核 以 进程 在 LO 系 
统 调用 中 指定 的 某 种 方式 通知 进程 。 我 们 已 在 6.2 节 比较 了 通常 可 用 的 
各 种 MO 类 型 ， 并 指出 了 信号 驱动 式 1O 和 有 异步 IO 之 间 的 差异 。 


注意 ， 我 们 在 第 16 章 讲解 过 的 非 阻塞 式 1O 同 样 不 是 异步 7JO。 对 
于 非 阻塞 式 WO， 内 核 一 旦 局 动 VO 操 作 束 不 像 异步 WO 那样 立即 返回 到 
进程 ， 而 是 等 到 MO 操作 完成 或 遇 到 错误 ;内 核 立即 返回 的 唯一 条 件 是 
qe CURRENTE EUIS 这 种 情况 下 内 核 不 局 动 VO 操 


POSIX 通 过 aio_XXX 函 数 提供 真正 的 异步 WO。 这 些 函 数 允 许 进 程 
指定 IO 操作 完成 时 是 否 由 内 核 产 生 信和 号 以 及 产生 什么 信号 。 


源 目 Berkeley 的 实现 使 用 SIGI0O 信 号 支持 套 接 字 和 终端 设备 上 的 
信和 号 驱动 式 /O。SVR4 使 用 SIGPOLL 信 号 支持 流 设备 上 的 信号 驱动 式 
IO，SIGPOLL 因 而 等 价 于 SIGIO ° 
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25.2” 套 接 字 的 信号 驱动 式 I/O 


针对 一 个 套 接 字 使 用 信号 驱动 式 WO (SIGIO) 要 求 进程 执行 以 下 


3 个 步骤 。 
(1) 建立 SIGI0 信 和 号 的 信号 处 理 函 数 。 


(2) 设置 该 套 接 字 的 属 主 ， 通 党 使 用 fcnt1 的 F_SETOWN 命 令 设置 
(图 7-20) 


(3) 开启 该 套 接 字 的 信号 驱动 式 JO， 通 常 通过 使 用 fcnt1 的 
F_SETFL 命 令 打 开 0_ASYNC 标 志 完 成 (图 7-20) 。 


0_ASYNC 标 志 是 相对 较 晚 加 到 POSIX 规 范 中 的 。 支 持 该 标志 的 系 
统 仍 不 多 见 。 我 们 在 图 25-4 中 改 用 ioct1 的 FIOASYNC 请 求 代为 开启 
信号 张 动 式 1O。 注 意 POSIX 选 用 的 名 字 并 不 恰当 : 选用 0_SIGIO 作 为 
这 个 标志 的 名 字 也 许 更 好 些 。 


我 们 应 该 在 设置 套 接 字 属 主 之 前 建立 信号 处 理 函 数 。 在 源 自 
Berkeley 的 实现 中 ， 这 两 个 步骤 的 函数 调用 顺序 无 关 紧 要 ， 因 为 
SIGI0 的 默认 行为 是 忽略 该 信号 。 要 是 我 们 颠倒 这 两 个 函数 调用 的 顺 
序 ， 那 么 在 调用 fcnt1 之 后 但 在 调用 Signal 之 前 有 较 小 的 机 会 产生 
SIGI0 信 和 号; 者 真如 此 ， 该 信号 只 是 被 丢弃 。 然 而 在 SVR4 中 ， 头 文件 
<sys/signal.h> 把 SIGIO 定 义 为 STGPOLL， 而 SLGPOLL 的 默认 行 
为 是 终止 进程 。 因 此 在 SVR4 中 ， 我 们 必须 先 安装 信号 处 理 函 数 ， 再 设 
置 套 接 字 属 主 。 


尽管 很 容易 把 一 个 侠 接 字 设 置 成 以 信号 驱动 式 1/O 模 式 工 作 ， 确 定 


哪些 条 件 导致 内 核 产 生 递交 给 套 接 字 属 主 的 SIGI0 信 和 号 却 殊 非 易 事 。 
这 种 判定 取决 于 文 撑 协 议 。 


25.2.1 ”对 于 UDP 套 接 字 的 SIGI0 信 和 号 


在 UDP 上 使 用 信号 驱动 式 1/O 是 简单 的 。SIGIO 信 号 在 发 生 以 下 事 
件 时 产生 : 


。 数据 报到 达 套 接 字 ; 
。 套 接 字 上 发 生 异 步 错 误 。 


因此 当 捕 获 对 于 某 个 UDP 套 搂 字 的 SIGI0 信 号 时 ， 我 们 调用 
recvfrom 或 者 读 入 到 达 的 数据 报 ， 或 者 获取 发 生 的 异步 错误 。 我 们 
已 在 8.9 节 职 UDP 套 接 字 讨论 过 有 异步 错误 ， 从 中 知道 发 生 异 步 错 误 的 前 
ere UDPEIRF CIE ° 


这 两 个 条 件 下 ，SIGI0 信 和 号 通过 调用 sorwakeup 产 生 〈 见 TCPv2 
第 775、779 页 及 784 页 ) 。 
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25.2.2 ”对 于 TCP 套 接 字 的 STGIO 信 号 


不 幸 的 是 ， 信 和 号 驱动 式 HO 对 于 TCP 套 接 字 近乎 无 用 。 问 题 在 于 该 
信号 产生 得 过 于 频繁 ， 并 且 它 的 出 现 并 没有 告诉 我 们 发 生 了 什么 事 
件 。 正 如 TCPv2 第 439 页 所 注 ， 下 列 条 件 均 导 致 对 于 一 个 TCP 套 接 字 产 
生 SIGIO 信 号 (假设 该 套 接 字 的 信号 驱动 式 VO 已 经 开启 ) : 


。 监听 套 接 字 上 某 个 连接 请 求 已 经 完成 ; 

。 时 个 断 连 请 求 已 经 发 起 ; 

。 时 个 断 连 请 求 已 经 完成 ; 

。 时 个 连接 之 半 已 经 关闭; 

。 数据 到 达 套 接 字 : 

。 数据 已 经 从 套 接 字 发 送 走 〈“ 即 输出 缓冲 区 有 空闲 空间 ) ; 
。 发 生 某 个 异步 错误 。 


举例 来 说 ， 如 果 一 个 进程 既 读 自 又 写 往 一 个 TCP 套 接 字 ， 那 么 当 
有 新 数据 到 达 时 或 者 当 以 前 写 出 的 数据 得 到 确认 时 ，SIGI0 信 和 号 均 会 
产生 ， 而 且 信 号 处 理 函 数 中 无 法 区 分 这 两 种 情况 。 如 果 SIGI0O 用 于 这 
种 数据 读 写 情形 ， 那 么 TCP 套 接 字 应 该 设置 成 非 阻 塞 式 ， 以 防 read 或 
write 发 生 阻 塞 。 我 们 应 该 考虑 只 对 监听 TCP 套 接 字 使 用 SIGI0， 
为 对 于 监听 套 接 字 产 生 SIGI0 的 唯一 条 件 是 某 个 新 连接 的 完成 。 


作者 能 够 找到 的 信号 驱动 式 1JO 对 于 套 接 字 的 唯一 现实 用 途 是 基于 
UDP 的 NTP 服 务 需 程序 。 服 务 吉 主 循环 接收 来 目 客户 的 一 个 请 求 数据 


报 并 发 送 回 一 个 应 答 数 据 报 。 然 而 对 于 每 个 客户 请 求 ， 其 处 理工 作 量 
并 非 可 以 忽略 ( 远 比 我 们 简单 地 回 射 服务 器 多 ) 。 对 服务 器 而 言 ， 重 
要 的 是 为 每 个 收取 的 数据 报 记录 精确 的 时 间 惟 ， 因 为 该 值 将 返 送 给 客 
户 ， 由 客户 用 于 计算 到 服务 器 的 RTT。 图 25-1 展 示 了 构建 这 样 的 UDP 
服务 器 的 两 种 方式 。 


服务 器 进程 


服务 器 循环 


| 


SUR A PI 


Lean er en dt Er ae T pode nma mg ci 


SIGIC 


WR S CROP 处 理 函 煞 
| 


tark 
收 缓冲 区 


fp 
| 收 组 冲 区 


图 25-1 构建 一 个 UDP 服务 器 的 两 种 方式 


大 多 数 UDP 服 务 器 (包括 第 8 章 中 的 回 射 服务 器 ) 都 设计 成 图 中 磊 
侧 所 示 的 方式 ， 不 过 NTP 服 务 絮 却 采 用 右 侧 所 示 的 技巧 ， 当 一 个 新 的 
数据 报到 达 时 ，SIGI0O 处 理 函 数 读 入 该 数据 报 ， 同 时 记录 它 的 到 达 时 
刻 ， 然 后 将 它 置 于 进程 内 的 另 一 个 队列 中 ， 以 便 主 服务 器 循环 移 走 并 
处 理 。 尽 管 这 个 技巧 让 服务 器 代码 变 复 杂 了 ， 却 为 到 达 数 据 报 提供 了 
精确 的 时 间 惟 。 

回顾 图 22-4， 我 们 知道 进程 可 以 通过 设置 TIP_RECVDSTADDR 套 接 


字 选 项 获取 所 收取 UDP 数据 报 的 目的 地 址 。 可 能 有 人 会 争论 说 ， 对 于 
所 收取 UDP 数据 报应 该 同时 返回 另外 两 个 信息 ， 接 收 接口 指示 〈 如 采 


EIKA id a Bm ARORA, 35 Bese A A] Be AN 
致 ) 和 数据 报到 达 时 刻 。 


对 于 IPv6，IPV6_PKTINF0O 套 接 字 选项 (22.877) 返回 接收 接 
口 。 对 于 IPv4， 我 们 已 在 22.2 节 讨论 过 IP_RECVIF 套 接 字 选项 。 


FreeBSD 还 提供 SO_TIMESTAMP 套 接 字 选项 ， 它 在 一 个 timeval 
结构 中 以 辅助 数据 的 形式 返回 数据 报 的 接收 时 刻 。Linux 则 提供 
SIOCGSTAMP ioct1， 它 返回 一 个 含有 数据 报 接 收 时 刻 的 timeval 
结构 。 


25.3 (#ASIGIOMUDPHIA B 25 SS REF 


我 们 现在 给 出 一 个 类 似 图 25-1 右 侧 的 例子 ， 一 个 使 用 SIGIO 信 号 
接收 到 达 数 据 报 的 UDP 服务 器 程序 。 


^UE ERIS-7TI 18-8, SUB TERIS] * HRS sS EE Y mainfW 
数 与 图 8-3 的 一 样 。 我 们 做 的 唯一 修改 是 对 dg_echo 函 数 ， 将 由 接 下 来 
的 4 幅 图 共同 给 出 。 图 25-2 给 出 了 全 局 声明 。 


— sigic/deochotl.c 
1 include "up. li" 


2 Btazic int sockfd, 


3 efine QSTZR a /* size of inpul queue */ 
4 fdefine MAXDS 40c6 /* max datacram siza */ 


5 typedef struct | 


é eid ^da3 dala; /* plir Lo actual datagram 4/ 

siza = dg isn; /* length of datagram */ 
£ etracz sockaddr *dg_sa; /* ptr to sockaddr{} w/client's address */ 
$ sccklen_t dg_salen; * length of sockaddr{} */ 
16 ? DG; 
11 static DG Cg[os-zE]; /* queue of datagrams to process */ 
12 statac Lone contreaa[QSIZE!1]: /* diagnoctic ccunter */ 
13 sta-ic int  igst; /* next one for reis loop to process 4/ 
l4 stazic int iput; /* naxt one for signal handler tc read into */ 
15 ctazic int nqueue; /* # on queue for main loop to procecs */ 
16 sta-ic socklen_t clilen; /* max length of sockaddr[) */ 


17 static voic sic io(-nt); 
19 stazic voic cis huz[inz): 
sicicdgochol.c 


图 25-2 ”全 局 声明 


已 收取 数据 报 队列 


3-12 SIGI0 信 号 处 理 函 数 把 到 达 的 数据 报 放 入 一 个 队列 。 该 队 
列 是 一 个 DG 结构 数组 ， 我 们 把 它 作 为 一 个 环形 缓冲 区 处 理 。 每 个 DG 结 
构 包 括 指 癌 所 收取 数据 报 的 一 个 指针 、 该 数据 报 的 长 度 、 指 向 含有 客 
户 协 议 地 址 的 某 个 套 接 字 地 址 结构 的 一 个 指针 、 该 协议 地 址 的 大 小 。 
静态 分 配 QSIZE 个 DG 结构 ， 我 们 将 在 图 25-4 中 看 到 ，dg_echo 函 数 调 
用 malloc 动 态 分 配 所 有 数据 报 和 套 接 字 地 址 结构 的 内 存 空间 。 我 们 
还 分 配 一 个 稍 后 解释 的 诊断 用 计数 姻 cntread。 图 25-3 展 示 了 这 个 DG 


结构 数组 ， 其 中 假设 第 一 个 元 素 指向 一 个 150 字 市 的 数据 报 ， 与 它 关 联 
的 套 接 字 地 址 结构 长 度 为 16。 


Eder Hoa 5849 


dg [QST ZE-1] | 


图 25-3 ”用 于 存放 所 收取 数据 报 及 其 套 接 字 地 址 结构 的 数据 结构 
665~ 
667 


数组 下 标 

13-15 iget 是 主 循环 将 处 理 的 下 一 个 数组 元 素 的 下 标 ，iput 
是 信号 处 理 函 数 将 存放 到 的 下 一 个 数组 元 素 的 下 标 ，nqueue 是 队列 
中 供 主 循环 处 理 的 数据 报 的 总 数 。 


K25-A25 tH T ERZI, BUdg echobNZe 


siziodgecia!.¢ 


1S void 

2€ 5g echni(int snec«fd arg, SA *peliadcdr, sockler t clilen_arg} 

21 { 

22 int i; 

23 consc int or - 1; 

24 sigset t  zercnask, newnasx, oldmesk; 

2 so-kfd = sockfd arg: 

26 Clilen - ciilan arg: 

27 tor (i = 0; 1 < QSIZE: i+) { /* init queue of burters */ 
2C da[i!.da dace - Mallcc(MAXDCI:; 

2S dg[il.dg sa = Maliac(clilen) ; 

ac dj(ii.dg salen = clilen; 

31 } 

32 iget = iput = naueue = 0; 

33 Sinal (SIGHUP, sig hup): 

34 Signal (SIGIS, sig io); 

36 Fertil (snckfs, F SETOWN, cerpid(O:; 

E Loctlisockfa, FIOASYNC, 501); 

37 ToctLlisockta, FIONBIO, &o2n); 

38 Sisempzysct (&ecromaak! ; /* init three signal scts */ 
33 Sigewpryset (&cldmask) ; 

ac Sigemp-yset (&iewmask) : 

41 Sigaddsetianesmask, SIGIO); /* signal ve want to block */ 
42 S:gprocmask (SIG BLOCK, &rewnask, &oldrask!; 

43 foe irp 

44 while {nqueve == 0) 

4t sigsusperid|&zeromask) ; /* wait for datagram to process */ 
4€ /* anblock SIGIO 7/ 

17 Sigorocmack(SIO EEIMASK, &£oldwmack, NULL,; 

16 S$en3t2;cockfd. dz[iact].dz Sata, dq[iact].3q len, 9, 
4S da[igetl.2g sa, dalicetl.da salen): 

5C if (+¢iget a= QSIZE) 

51 iget = 0; 

Sa /* Sleek SIGIO */ 

53 Siqurocrack(SISG BLOCK, &newmazk, &olcomsex]; 

54 nqusus--; 

58 } 

se ) 


sigio'deecial! c 


图 25-4 dg_echo 画 数 : 服务 器 主 处 理 循环 
初始 化 已 接收 数据 报 队列 


27-32 ”把 套 接 字 插 述 符 保存 在 一 个 全 局 变量 中 ， 因 为 信号 处 理 
玉 数 需要 它 。 初 始 化 已 接收 数据 报 队 列 。 


668 
建立 信号 处 理 画 数 并 设置 套 接 字 标 志 


33-37 为 SIGHUP (用 于 诊断 目的 ) AISIGIOM@IZ (AS EN 
数 。 使 用 fcnt1 设 置 套 接 字 的 属 主 ， 使 用 ioct1 设 置信 号 驱动 和 非 阻 
塞 式 JO 标 志 。 


我 们 早先 提 到 过 ，fcnt1 的 0_ASYNC 标 志 是 POSIX 的 信和 号 驱动 式 
IO 指定 方式 ， 不 过 由 于 大 多 数 系 统 还 不 支持 它 ， 我 们 改 用 ioct1 取 
代 。 尽 管 大 多 数 系统 确实 支持 使 用 fcnt1 的 0_NONBLOCK 标 志 设 置 非 
阻塞 式 1O， 在 这 儿 我 们 仍然 给 出 ioct1 方 法 。 


初始 化 信号 集 


38-41 初始 化 三 个 信号 集 zeromask (从 不 改变 ) 
oldmask (记录 我 们 阻塞 STGIO 时 原来 的 信号 掩 码 ) 和 newmask。 使 
用 sigaddset 打 开 newmask 中 与 SIGIO0 对 应 的 位 。 


阻塞 SIGI0 并 等 待 有 事 可 做 


42-45 调用 sigprocmask 把 进程 的 当前 信和 号 掩 码 保存 到 
oldmask 中 ， 然 后 把 newmask 人 逻辑 或 到 当前 信号 掩 码 。 这 将 阻 塞 
SIGI0 并 返回 当前 信号 掩 码 。 接 着 进入 for 循 环 ， 并 测试 nqueue 计 数 
器 。 只 要 该 计数 器 为 0， 进 程 就 无 事 可 做 ， 这 时 我 们 可 以 调用 
sigsuspend。 该 POSIX 图 数 和 完 内 部 保存 当前 信和 号 掩 码 ， 再 把 当前 信 
号 掩 码 设置 为 它 的 参数 (zeromask) 。 既 然 zeromask 是 一 个 空 信 
号 集 ， 因 而 所 有 信号 都 被 开通 。sigsuspend 在 进程 捕获 一 个 信号 并 
且 该 信号 的 处 理 函 数 返 回 之 后 才 返 回 。 ( 它 是 一 个 不 寻常 的 函数 ， 
为 它 总 是 返回 EINTR 错 误 。) 在 返回 之 前 sigsuspend 总 是 把 当前 信 
号 掩 码 恢复 为 调用 时 刻 的 值 ， 在 本 例子 中 就 是 newmask 的 值 ， 从 而 确 
保 sigsuspend 返 回 之 后 SIGI0 继 续 被 阻塞 。 这 是 我 们 可 以 测试 计数 
器 nqueue 的 理由 ， 因为 我 们 知道 测试 它 时 SIGI0 信 和 号 不 可 能 被 递 
A o 


要 是 我 们 在 测试 nqueue 这 个 由 主 循环 和 信和 号 处 理 函 数 共 享 的 变 
量 时 SIGI0 未 被 阻塞 ， 那 么 会 发 生 什 么 呢 ? 我 们 可 能 测试 nqueue 时 
发 现 它 为 0， 但 是 刚 测试 完毕 SIGIO 信 号 就 递交 了 ， 导 致 nqueue 被 设 
置 为 1。 我 们 接着 调用 sigsuspend 进 入 睡眠 ， 这 样 实际 上 就 错过 了 这 
个 信号 。 除 非 另 有 信和 号 发 生 ， 人 否则 我 们 将 永远 不 能 从 sigsuspend 调 
用 中 被 唤醒 。 这 一 点 类 似 我 们 在 20.5 世 讲解 过 的 竞争 状态 。 


解 阻 塞 SIGI0 并 发 送 应 答 


46-51 调用 sigprocmask 把 进程 的 信号 掩 码 设置 为 先前 保存 
的 值 (oldmask) ， 从 而 解除 SIGI0 的 阻塞 。 然 后 调用 Sendto 发 送 
应 答 。 递 增 iget 下 标 ， 若 其 值 等 于 DG 结构 数组 元 素数 目 则 将 其 值 置 
回 0， 因 为 我 们 把 该 数组 作为 环形 缓冲 区 对 待 。 注 意 : 修改 ijget 时 我 
因为 只 有 主 循环 使 用 这 个 下 标 ， 信 和 号 处 理 函 数 从 
\ 改 动 它 。 


阻塞 SIGIO 


52-54 ”阻塞 SITG6I0， 递 减 nqueue。 修 改 nqueue 时 我 们 必须 阻 
塞 SIGI0， 因 为 它 是 主 循环 和 信和 号 处 理 函 数 共 同 使 用 的 变量 。 我 们 在 
循环 顶部 测试 nqueue 时 也 需要 SIGI0O 阻 塞 着 。 


另 一 个 手段 是 干脆 去 掉 for 循 环 内 的 两 个 sigprocmask 调 用 ， 省 
得 解 阻 塞 SIGI0O 后 又 阻塞 它 。 这 么 做 的 问题 是 执行 整个 循环 期 间 
SIGI0 一 直 阻 塞 着 ， 从 而 降低 了 信号 处 理 函 数 的 及 时 性 。 数 据 报 不 应 
该 因为 如 此 变动 而 丢失 〈 假 设 套 接 字 接收 缓冲 区 足够 大 ) ， 但 是 
SIGI0 信 和 号 向 进程 的 递交 将 在 整个 阻塞 期 间 一 直 被 拖延 。 编 写 执行 信 
努力 目标 之 一 应 该 是 尽 可 能 地 减少 阻塞 信号 的 
时 间 e 


图 25-5 给 出 的 是 SIGI0O 的 信号 处 理 函 数 。 


sigic/dgechotl.c 


57 sLaLic void 

se sig io(int signo! 
se { 

60 ssize t len; 


61 int read; 

52 DG *p-r; 

53 for (nread = 0; ; ) [ 
54 if inqueue >= QSIZE) 


err_quit ("receive overflow"); 


66 ptr = édgliput]; 


67 rtr-sdg salen - clilen; 

G6 len - zecvirom(sock£d, ztr-»dg deta, MAXDG, 9, 

5S9 pt »dz sa, Sptr-sdg_salen} ; 

70 if ilen < 0) { 

71 it /orrno == EWOULDELCCK) 

72 break; /* all done; no nore queued to read */ 
73 =" se 

74 err_cys("recvErom error’): 

75 } 

7€ ptr-adg_len = len; 

77 arsad+ +; 

76 aquevertr; 

79 if (++iput >= QSIZE) 

3U iput = Ui 

at 

32 ent read [nread) ++; /* histogram of f datagrams read par signal */ 
83 ] 


sicic/dgocho0l.c 


图 25-5 SIGIOZAFERZN 


编写 本 信号 处 理 函 数 时 我 们 遇 到 的 问题 症 POSIX 信 和 号 通常 不 排 
队 。 这 一 点 意味 着 如 有 果 我 们 在 信号 处 理 函 数 中 执行 “期间 内 核 确 保 该 
信和 号 被 阻塞 ) ， 期 间 该 信号 又 发 生 了 2 次 ， 那 么 它 实 际 只 被 递交 1 次 。 


POSIX 提 供 一 些 排队 的 实时 信号 ， 不 过 诸如 SIGI0 等 其 他 信号 通 
常 不 排队 。 


让 我 们 考虑 下 壕 情 形 。 一 个 数据 报到 达 导 致 SIGI0 被 递交 。 它 的 
信号 处 理 函 数 读 入 该 数据 报 并 把 它 放 到 供 主 循环 读 取 的 队列 中 。 然 而 
在 信号 处 理 函 数 执行 期 间 ， 另 有 两 个 数据 报到 达 ， 导 致 SIGI0 再 产生 
两 次 。 由 于 SIGIO 被 阻塞 ， 当 它 的 信号 处 理 函 数 返回 时 ， 该 处 理 函 数 
仅仅 再 被 调用 一 次 。 该 信号 处 理 函 数 的 第 二 次 执行 读 入 第 二 个 数据 
报 ， 第 三 个 数据 报 则 仍然 留 在 父 接 字 接 收 队 列 中 。 第 三 个 数据 报 被 读 
入 的 前 提 条 件 症 有 第 四 个 数据 报到 达 。 当 第 四 个 数据 报到 达 时 ， 被 读 
入 并 放 到 供 主 循环 读 取 的 队列 中 的 是 第 三 个 而 不 是 第 四 个 数据 报 。 


既然 信号 是 不 排队 的 ， 开 启 信 号 驱动 式 WVO 的 描述 符 通 常 也 被 设置 
为 非 阻 塞 式 。 这 个 前 提 下 ， 我 们 把 SIGI0O 信 和 号 处 理 函 数 编写 成 在 一 个 
循环 中 执行 读 入 操作 ， 直 到 该 操作 返回 EWOULDBLOCK 时 才 结 束 循 
环 。 


检查 队列 溢出 

64~65 如 果 DG 结 构 数组 队列 已 满 ， 进 程 就 终止 。 当 然 处 理 这 种 
情况 另 有 更 合适 的 方法 (例如 分 配额 外 的 缓冲 区 ) ， 不 过 就 我 们 的 简 
单 例子 不 如 干脆 终止 进程 。 
读 入 数据 报 

66-76 在 非 阻塞 套 接 字 上 调用 recvfrom。 下 标 为 put 的 数组 
元 素 用 于 存放 读 入 的 数据 报 。 如 果 没 有 可 读 的 数据 报 ， 那 束 break 出 
for 循 环 。 
递增 计数 器 和 下 标 


77-80 nread 是 一 个 计量 每 次 信号 递交 读 入 数据 报 数目 的 诊断 
计数 器 。nqueue 是 有 待 主 循环 处 理 的 数据 报 数目 。 


82 在 信号 处 理 画 数 返 回 之 前 ， 递 增 与 每 次 信和 号 递 灾 读 入 数据 报 
数目 对 应 的 计数 历 。 当 SIGHUP 信 号 被 递交 时 ， 我 们 在 图 25-6 中 将 这 个 
计数 器 数组 的 内 容 显示 为 诊断 信息 。 


sigic/dgecho0l.c 
Ra sla.ic voir 
E5 gig hup(int Eicnz) 
EG | 
ay iat 
£8 fcr ‘i = 0; i «= OGIZE; i++) 
RS print’ (*ontread(td) = $ld\n", i, cntresd[:]); 
90 ? 
sigic/dgechovl.c 


图 25-6 SIGHUP 信 号 处 理 函 数 


最 后 一 个 画 数 是 SIGHUP 信 和 号 处 理 函 数 (图 25-6) ， 它 显示 
cntread 数 组 的 内 容 。 该 数组 统计 以 每 次 读 和 人 数据 报 数目 为 下 标的 信 
号 递交 次 数 。 
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Jf pA Te SEEDY, FF AR SiR ERS SS Koto 
标志 之 外 ， 还 必须 把 套 接 字 设置 为 非 阻 塞 式 ， 我 们 与 6 个 客户 一 道 运行 
本 服务 器 。 每 个 客户 发 送 3645 行 让 服务 器 回 射 的 文本 ， 而 且 每 个 客户 
都 从 同一 个 shell 脚 本 以 后 台 方 式 启动 ， 因 而 所 有 客户 几乎 在 同一 时 刻 
启动 。 所 有 客户 终止 之 后 ， 我 们 癌 服 务 器 发 送 SIGHUP 信 和 号， 促使 它 
显示 cntread 数 组 内 容 。 


linux % udpserv01 
cntread[0] 
cntread[1] 
cntread[2] 
cntread[3] 
cntread[4] 
cntread[5] 
cntread[6] 
cntread[7] 
cntread[8] 


15899 
2099 
515 
57 

0 


0 
0 
0 


大 多 数 情况 下 信号 处 理 函 数 每 次 被 调用 只 读 入 一 个 数据 报 ， 不 过 
有 些 情况 下 可 读 入 多 个 数据 报 。cntread[9] 计 数 器 不 为 0 是 可 能 的 : 
这 些 信 号 在 信号 处 理 函 数 正在 执行 时 产生 ， 不 过 信和 号 处 理 函 数 的 本 次 
执行 在 返回 之 前 预先 读 入 了 对 应 这 些 信 号 的 数据 报 。 当 信和 号 处 理 函 数 
因 这 些 信号 的 提交 而 再 次 被 调用 执行 时 ， 已 经 没有 剩余 的 数据 报 可 以 
读 入 了 。 最 后 ， 我 们 可 以 验证 该 数组 元 素 的 加 权 总 和 
(15899x1+2099x2+515x3+57x4=21870) 等 于 6 (客户 数目 ) 乘 以 3645 
(每 个 客户 的 发 送 的 文本 行 数 ) 。 


25.4 ”小 结 


言 号 驱动 式 1O 驳 是 让 内 核 在 套 接 字 上 发 生 * 某 事 ?” 时 使 用 SIGI0 信 
号 通知 进程 。 


。 对 于 已 连接 TCP 套 接 字 ， 可 以 导致 这 种 通知 的 条 件 为 数 众多 ， 反 
而 使 得 这 个 特性 几 近 无 用 。 um | 
对 了 监听 TCP 套 搂 字 ， 这 种 通知 发 生 在 有 一 个 新 连接 已 准备 好 
ALB ° 

对 于 UDP 套 接 字 ， 这 种 通知 意味 着 或 者 到 达 一 个 数据 报 ， 或 者 到 
达 一 个 异步 错误 ， 这 两 种 情况 下 我 们 都 调用 recvfrom 。 

我 们 把 早先 的 UDP 回 射 服务 器 程序 改 为 使 用 信号 驱动 式 WJO， 所 用 
技巧 类 似 于 NTP， 尽 快 读 入 已 到 达 的 每 个 数据 报 以 获取 其 到 达 时 刻 的 
精确 时 间 戳 ， 然 后 将 它 置 于 某 个 队列 供 后 续 处 理 。 
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习题 
25.1 图 25-4 中 的 循环 有 如 下 另 一 个 设计 : 


For ( 43739 4 
Sigprocmask(SIG BLOCK, &newmask, &oldmask); 
while (nqueue -- 0) 
sigsuspend(&zeromask); /* wait for datagram to process 


nqueue--; 


/* unblock SIGIO */ 


Sigprocmask(SIG SETMASK, &oldmask, NULL); 


Sendto(sockfd, dg[iget].dg data, dg[iget].dg len, ©, 
dg[iget].dg sa, dg[iget].dg salen); 


if (++iget >= QSIZE) 
iget - 0; 


这 样 修改 可 以 接受 吗 ? 


第 26 章 ”线程 


26.1 概述 


在 传统 的 UNIX 模 型 中 ， 当 一 个 进程 需要 另 一 个 实体 来 完成 某 事 
时 ， 它 就 fork 一 个 子 进程 并 让 子 进程 去 执行 处 理 。Unix 上 的 大 多 数 网 
络 服务 器 程序 就 是 这 么 编写 的 ， 正 如 我 们 在 早先 讲解 的 并 发 服务 器 程 
序 例子 中 看 到 的 那样 : 父 进程 accept 一 个 连接 ，fork 一 个 子 进程 ， 
该 子 进程 处 理 与 该 连接 对 端的 客户 之 间 的 通信 。 


尽管 这 种 范式 多 少年 来 一 直 用 得 挺 好 ，fork 调 用 却 存在 一 些 问 
题 


jell o 


。fork 是 昂贵 的 。fork 要 把 父 进 程 的 内 存 映像 复制 到 子 进程 ， 并 
在 子 进程 中 复制 所 有 描述 符 ， 如 此 等 等 。 当 今 的 实现 使 用 称 为 写 
时 复制 (copy-on-write) 的 技术 ， 用 以 避免 在 子 进程 切实 需要 自 
己 的 副本 之 前 把 父 进程 的 数据 空间 复制 到 子 进程 。 然 而 即便 有 这 
样 的 优化 措施 ，fork 仍 然 是 昂贵 的 。 

。 fork 返 回 之 后 父子 进程 之 间 信 息 的 传递 需要 进程 间 通 信 (IPC) 
机 制 。 调 用 fork 之 前 父 进程 向 尚未 存在 的 子 进程 传递 信息 相当 容 
易 ， 因 为 子 进程 将 从 父 进 程 数 据 空间 及 所 有 摘 述 符 的 一 个 副本 开 

台 运行 。 然 而 从 子 进程 往 父 进程 返回 信息 却 比 较 费 力 。 


线程 有 助 于 解决 这 两 个 问题 。 线 程 有 时 称 为 轻 权 进程 
(lightweight process) ， 因 为 线程 比 进程 “权重 轻 些 *。 也 束 是 说 ， 线 
程 的 创建 可 能 比 进程 的 创建 快 10~100 倍 。 


同一 进程 内 的 所 有 线程 共享 相同 的 全 局 内 存 。 这 使 得 线程 之 间 吻 
于 共享 信息 ， 然 而 伴随 这 种 简易 性 而 来 的 却 是 同步 (synchronization) 


问题 。 
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EAEAN ete TSS IAS: 


进程 指令 ; 

大 多 数 数据 ; 

打开 的 文件 ( 即 描述 符 ) ; 
信号 处 理 函 数 和 信号 处 置 ; 
当前 工作 目录 ; 

用 户 ID 和 组 ID 。 


不 过 每 个 线程 有 各 目的 : 


线程 ID; 

寄存 器 集合 ， 包 括 程序 计数 絮 和 栈 指针 ; 
栈 (用 于 存放 局 部 变量 和 返回 地 址 ) ; 
errno; 

= 5f; 

优先 级 。 


束 像 我 们 在 11.18 世 讨论 过 的 那样 ， 信 号 处 理 函 数 可 以 类 比 作 某 种 
线程 。 这 就 古 说 在 传统 的 UNIX 模 型 中 ， 我 们 有 主 执 行 流 〈 也 称 为 主 控 
制 流 ， 即 一 个 线程 ;和 某 个 信号 处 理 画 数 ( 男 一 个 线程 》。 如 果 主 执 
行 流 正在 更 改 某 个 链表 时 发 生 一 个 信号 ， 而 且 该 信号 的 处 理 轴 数 也 试 
图 更 改 该 链表 ， 那 么 后 果 通 常 是 灾难 性 的 。 主 执行 流 和 信和 号 处 理 函 数 
共 至 同样 的 全 局 变量 ， 不 过 它们 有 各 目的 栈 。 


我 们 在 本 章 讲 解 的 是 POSIX 线 程 ， 也 称 为 Pthread。POSIX 线 程 作 
为 POSIX 标 准 的 一 部 分 在 1995 年 得 到 标准 化 ， 大 多 数 UNIX 版 本 将 来 会 
支持 这 类 线程 。 我 们 将 看 到 所 有 Pthread 画 数 都 以 pthread_ 打 头 。 本 
人 只 是 线程 的 一 个 引子 ， 旨 在 使 得 我 们 能 够 在 网 络 程序 中 使 用 它们 。 
关于 线程 的 更 多 细节 参见 [Butenhof 1997] 。 


26.2 WARE RA: 创建 和 终止 


A WES FEAR EG EE EK Bo TEREST, Ri RE A Ae EE ER IC 
把 我 们 的 TCP 客 户 / 服 务 器 程序 重新 编写 成 改 用 线程 取代 fork。 


26.2.1 pthread_create 画 数 


当 一 个 程序 由 exec 启 动 执 行 时 ， 称 为 初始 线程 (initial thread) 或 
主线 程 (main thread) 的 单个 线程 就 创建 了 。 其 余 线程 则 由 
pthread_create 函 数 创建 。 
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#include <pthread.h> 


int pthread create(pthread t *tid, const pthread attr t *attr, 
void *(*func)(void *), void *arg); 


返回 : 若 成 功 则 为 9， 


E 的 Exxx 值 


一 个 进程 内 的 每 个 线程 都 由 一 个 线程 ID (thread ID) 标识 ， 其 数 
据 类 型 为 pthread_t (往往 是 unsigned int) 。 如 果 新 的 线程 成 
功 创建 ， 其 ID 就 通过 tid 指 针 返 回 。 


每 个 线程 都 有 许多 属性 (attribute) : 优先 级 、 初 始 栈 大 小 、 是 否 
应 该 成 为 一 个 守护 线程 ， 等 等 。 我 们 可 以 在 创建 线程 时 通过 初始 化 一 
个 取代 默认 设置 的 pthread_attr_t 变 量 指定 这 些 属性 。 通 常情 况 下 
我 们 采纳 默认 设置 ， 这 时 我 们 把 attr 参 数 指定 为 空 指 针 。 


创建 一 个 线程 时 我 们 最 后 指定 的 参数 是 由 该 线程 执行 的 函数 及 其 
参数 。 该 线程 通过 调用 这 个 函数 开始 执行 ， 然 后 或 者 显 式 地 终止 GB 
过 调用 pthread_exit) ， 或 者 隐 式 地 终止 〈 通 过 让 该 函数 返回 ) 

该 函数 的 地 址 由 名 nc 人 参数 指定 ， 该 函数 的 唯一 调用 参数 是 指针 arg。 如 
果 我 们 需要 给 该 函数 传递 多 个 参数 ， 我 们 就 得 把 它们 打包 成 一 个 结 
构 ， 然 后 把 这 个 结构 的 地 址 作为 单个 参数 传递 给 这 个 起 始 函 数 。 


t A funcHMargh Fi B8 ° funcPrTRERZIEZg BARS “Min ASE 
(void *) ， 又 作为 返回 值 返回 一 个 通用 指针 (void *) 。 这 使 得 
我 们 可 以 把 一 个 指针 ( 它 指 向 我 们 期 望 的 任何 内 容 ) 传递 给 线程 ， 又 
允许 线程 返回 一 个 指针 ( 它 同 样 指 向 我 们 期 望 的 任何 内 容 ) 。 


通常 情况 下 Pthread 函 数 的 返回 值 成 功 时 为 0， 出 错时 为 某 个 非 0 
值 。 与 套 接 字 函 数 及 大 多 数 系 统 调 用 出 错时 返回 -1 并 置 errno 为 某 个 
正 值 的 做 法 不 同 的 是 ，Pthread 函 数 出 错时 作为 函数 返回 值 返 回 正 值 错 
误 指示 。 举 例 来 说 ， 如 果 pthread_create 因 在 线程 数目 上 超过 某 个 
系统 限制 而 不 能 创建 新 线程 ， 范 数 返 回 值 将 是 EAGAIN。Pthread 函 数 
不 设置 errno。 成 功 为 0 出 错 为 非 0 这 个 约定 不 成 问题 ， 因 为 
<sys/errno.,h> 头 文件 中 所 有 的 Exxx 值 都 是 正 值 。0 值 从 来 不 被 赋予 
任何 Exxx 和 名 字 。 


26.2.2 pthread_joinwWa 


我 们 可 以 通过 调用 pthread_join 等 待 一 个 给 定 线程 终止 。 对 比 
线程 和 UNIX 进 程 ，pthread_create 类 似 于 fork，pthread_join 
类 似 于 waitpid。 

#include <pthread.h> 


int pthread join(pthread t *tid, void **status); 


返回 : ARIKO, Aht 


则 为 正 的 EXxx 值 
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我 们 必须 指定 要 等 待 线程 的 tid。 不 焉 的 是 ，Pthread 没 有 办 法 等 待 
任意 一 个 线程 (类 似 指 定 进程 ID 参 数 为 -1 调用 waitpid) 。 我 们 将 在 
讨论 图 26-14 时 回 到 本 问题 o 

如 果 status 指 针 非 空 ， 来 自 所 等 待 线程 的 返回 值 〈 一 个 指向 某 个 对 
象 的 指针 ) 将 存 入 由 status 指 问 的 位 置 。 


26.2.3 pthread_self WX 


每 个 线程 都 有 一 个 在 所 属 进 程 内 标识 自身 的 ID。 线 程 ID 由 
pthread_create 返 回 ， 而 且 我 们 已 经 看 到 pthread_join 使 用 
它 。 每 个 线程 使 用 pthread_selLf 获 取 自 身 的 线程 ID。 


#include <pthread.h> 


pthread t pthread self(void); 


程 的 线程 ID 


对 比 线程 和 UNIX 进 程 ，pthread_self 类 似 于 getpid。 


26.2.4 pthread detachENZi 


一 个 线程 或 者 是 可 汇合 的 〈joinable， 默 认 值 ) ， 或 者 是 脱离 的 
(detached) 。 当 一 个 可 汇合 的 线程 终止 时 ， 它 的 线程 ID 和 退出 状态 
将 留存 到 另 一 个 线程 对 它 调 用 pthread_join。 脱 离 的 线程 却 像 守护 
进程 ， 当 它们 终止 时 ， 所 有 相关 资源 都 被 释放 ， 我 们 不 能 等 竺 它们 终 
止 。 如 果 一 个 线程 需要 知道 另 一 个 线程 什么 时 候 终 止 ， 那 就 最 好 保持 

第 二 个 线程 的 可 汇合 状态 。 


pthread_detach 碎 数 把 指定 的 线程 转变 为 脱离 状态 。 


#include <pthread.h> 


int pthread_detach(pthread_t tid); 


返回 : FARHA 


， 若 出 错 则 为 正 的 Exxx 值 


本 画 数 通常 由 想 让 自己 脱离 的 线程 调用 ， 就 如 以 下 语句 ， 
pthread_detach(pthread_self()); 


26.2.5 pthread_exit WA 
让 一 个 线程 终止 的 方法 之 一 是 调用 pthread_exit。 


#include <pthread.h> 


void pthread_exit(void *status); 


\ 返 回 到 调用 者 


如 果 本 线程 未 曾 脱 离 ， 它 的 线程 ID 和 退出 状态 将 一 直 留 存 到 调用 
进程 内 的 某 个 其 他 线程 对 它 调 用 pthread_join。 
指针 status 不 能 指 回 局 部 于 调用 线程 的 对 象 ， 因 为 线程 终止 时 这 样 
的 对 象 也 消失 。 
让 一 个 线程 终止 的 另外 两 个 方法 是 。 
。 启动 线程 的 函数 〈 即 pthread_create 的 第 三 个 参数 ) 可 以 返 
回 。 既 然 该 贸 数 必须 声明 成 返回 一 个 void 指 针 ， 它 的 返回 值 束 是 


相应 线程 的 终止 状态 。 
。 如 末 进 程 的 main 函 数 返 回 或 者 任何 线程 调用 了 exit， 整 个 进程 


斌 终止 ， 其 中 包括 它 的 任何 线程 。 


26.3 ”使 用 线程 的 str_c1i 函 数 


我 们 使 用 线程 的 第 一 个 例子 是 把 图 5-9 中 使 用 fork 的 str_cli 画 
数 重 新 编写 成 改 用 线程 。 回 顾 一 下 ， 我 们 提供 了 该 函数 的 多 个 其 他 版 
本 : 最 初 是 图 5-5 中 使 用 停 一 等 协议 的 版 本 (我 们 讨论 过 该 版 本 远 非 适 
合 批 量 输入 ) ;接着 是 图 6-13 中 使 用 阻塞 式 WO 和 select 函 数 的 版 
本 ; 后 来 是 从 图 16-3 开 始 的 使 用 非 阻 塞 式 IO 的 版 本 。 图 26-1 展 示 了 该 
函数 线程 版 本 的 设计 。 


P pi 


copyto 


标准 输入 线程 aL 
pthread create —— 服务 器 
标 锥 输出 g x 


图 26-1 ”使 用 线程 重新 编写 str_c1i 


图 26-2 给 出 了 使 用 线程 的 Str_cli 函 数 。 


threads/strolithread.c 


1 &iuclude "ur. ptLlir ead. h" 
2 void *copyro(vodd *): 


3 Static int  sockfd; /* dlobsl fcr both threads tc access */ 
4 static FILE "Zo 


5 void 

6 sty Cll(P-LE *fp arg, int scckfd arg) 

"3 1 

6 caar recvline[MAXLINE]. 

9 p-hread t tid; 

10 scckfü = sockfs arg; /* copy arguments to exterrals */ 
1i to = tp ars: 

12 Pzhread create(&t-d, NULL, copyto, NULL); 

13 wiile i(Readlinse(sockfd, recvline, MAXLINE! > 0) 

14 Fpute (recvline, stdout); 

1s; 

16 void * 

17 capybalvnir *arg) 

18 i 

19 cnar serdline [MAXLINE] ; 

20 waile iPgetsíssndline, MAXLINB. fp) |= NULL: 

21 W-itení(soccxfd, sendlire, strlen(sendlire);: 

a2 sautdcwn!sockf$i, SHUL NHK); /* BOF 2n stdin, send FIN */ 
23 return (NULL! ; 

24 /* return (i.e., thread terminates) when ECF on stdin */ 
25 


dueadvsttidhvead: 


图 26-2 (EHEH str_cliKžt 


unpthread .h 头 文件 


1 这 是 我 们 首次 碰 到 unpthread .h 头 文件 。 它 包含 我 们 通常 的 
unp .h 头 文件 ， 接 着 包含 POSIX 的 <pthread .h> 头 文件 ， 然 后 定义 我 
们 为 pthread_XXX 函 数 编写 的 包 囊 函数 (1.47) 的 函数 原型 ， 这 些 
包 庄 函数 都 以 Pthread_ 打头。 


把 参数 保存 在 外 部 变量 中 


10-11 我 们 将 要 创建 的 线程 需要 str_c1i 的 2 个 参数 : fo A 
入 文件 的 标准 IJO 库 FILE 指 针 ) 和 sockfd (连接 到 服务 器 的 TCP 套 接 
字 描 述 符 ) 。 为 简单 起 见 ， 我 们 把 这 2 个 参数 值 保存 到 外 部 变量 中 。 男 
一 个 技巧 是 把 这 两 个 值 放 到 一 个 结构 中 ， 然 后 把 指向 这 个 结构 的 一 个 
指针 作为 参数 传递 给 我 们 将 要 创建 的 线程 。 
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创建 新 线程 


12 创建 线程 ， 新 线程 ID 返 回 到 tid 中 。 由 新 线程 执行 的 函数 是 
copyto。 没 有 参数 传递 给 该 线程 。 


主线 程 循环 ， 从 套 接 字 到 标准 输出 复制 

13-14 主线 程 调用 readline 和 fputs， 把 从 套 接 字 读 入 的 每 
个 文本 行 复制 到 标准 输出 。 
终止 

15 当 str_cli 琴 数 返 回 时 ，main 函 数 通 过 调用 exit 终 止 进程 
(5.4 节 ) ， 进 程 内 的 所 有 线程 也 随 之 被 终止 。 通 常情 况 下 ，copyto 
线程 在 从 标准 输入 读 到 EOF 时 已 经 先 于 main 函 数 的 exit 调 用 终止 。 


然而 要 是 发 生 服 务 器 过 早 终止 之 事 (5.12 节 ) ， 尚 未 读 入 EOF 的 
copyto 线 程 就 得 由 main 画 数 调用 exit 来 终止 。 
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copyto 线 程 


16-25 该 线程 只 是 把 读 自 标准 输入 的 每 个 文本 行 复制 到 套 接 
字 。 当 在 标准 输入 上 读 得 EOF 时 ， 它 通过 调用 shutdown 从 套 接 字 送 
出 FIN， 然 后 返回 。 从 启动 该 线程 的 函数 return 来 终止 该 线程 。 


我 们 在 16.2 节 末尾 提供 了 用 于 str_c1i 函 数 不 同 版 本 的 5 个 实现 技 
术 的 性 能 测量 结 有 末 。 我 们 看 到 ， 刚 才 给 出 的 线程 版 本 人 花费 8.5 秒 钟 ， 略 
微 快 于 使 用 fork 的 版 本 〈 正 如 所 料 ) ， 不 过 慢 于 非 阻 蹇 式 MO 的 版 
本 。 然 而 对 比 非 阻塞 式 WO 版 本 〈16.2 节 ) 的 复杂 性 和 线程 版 本 的 简单 
性 ， 我 们 依然 推荐 使 用 线程 而 不 古 非 阻塞 式 1/O 。 


26.4 “使 用 线程 的 TCP 回 射 服务 器 程序 


现在 我 们 重新 编写 图 5-2 中 的 TCP 回 射 服 务 器 程序 ， 改 成 为 每 个 客 
户 使 用 一 个 线程 ， 而 不 是 为 每 个 客户 使 用 一 个 子 进程 。 我 们 同样 使 用 
自己 的 tcp_1isten 函 数 使 得 该 程序 与 协议 无 天 。 图 26-3 给 出 了 本 服 
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threadvtenserv01.c 


L sinclude "uiptlireasd.li" 

2 static void *coit (woid *): /f* each thread executes this function */ 
3 int 

4 main(int argc, char **argv) 

5 

5 int listenfd. connfd: 

7 pthread t tid; 

3 socklen t addrlen, len: 

3 struct sockaddr *cliaddr: 

10 i= (aroe == 2) 

11 l-sten£d = Tep_listen(NULiL, arsvii)], é&addrlen); 

12 else if (arg= == 3! 

13 1 stem fd = Top) sten(argv(1), aryu[?], Sackiclen! ; 
14 else 

15 err quit("usage: tczserv0l [ «bost- | «service or port>"]; 
16 clia2dr = MFallccí(add-len s; 

17 for (3; 3; ) { 

18 len = addrlen; 

19 connEd = Accept(listenfd, cliaddr, &ler); 

20 Fthread create (Stid, NULL, &doit, (vceic *) connfd): 
21 ) 

22 ] 


23 static void * 


24 doit (void *argl 

25 | 

2€ Pthread Zetach(pthread selti]); 

27 str ecko((int) ara}; /* same function as before */ 

28 Close ( (int) ang); /^ dow with conrected socket */ 
29 return (NULL) ; 


创建 线程 


图 26-3 ”使 用 线程 的 TCP 回 射 服务 器 程序 (参见 习题 26.5) 


ihreacs/topservól.c 


17-21 accept 返 回 之 后 ， 改 为 调用 pthread_create 取 代 调 
用 fork。 我 们 传递 给 doit 函数 的 唯一 参数 是 已 连接 套 接 字 描述 符 


connfd ° 


我 们 把 整数 捅 述 符 connfd 类 型 强制 转换 成 void 指 和 针 。ANSI C 并 
不 保证 这 么 做 能 够 起 作用 。 只 有 在 整数 的 大 小 小 于 或 等 于 指针 的 大 小 \ 
的 系统 上 ， 这 样 的 类 型 强制 转换 才能 起 作用 。 所 辛 的 是 大 多 数 UNIX 实 
现 具备 这 个 特征 (图 1-17) 。 我 们 稍 后 还 要 讨论 这 一 点 。 


线程 函数 


23-30 doit 是 由 线程 执行 的 函数 。 线 程 首先 让 目 身 脱离 ， 因 为 
主线 程 没 有 理由 等 待 它 创建 的 每 个 线程 。 然 后 调用 图 5-3 中 的 
str_echo 函 数 。 该 函数 返回 之 后 ， 我 们 必须 close 已 连接 套 接 字 ， 
因为 本 线程 和 主线 程 共享 所 有 的 描述 符 。 对 于 使 用 fork 的 情形 ， 子 进 
程 就 不 必 close 已 连接 套 接 字 ， 因 为 子 进程 旋即 终止 ， 而 所 有 打开 的 
描述 符 在 进程 终止 时 都 将 被 关闭 (参见 习题 26.2) 。 

还 要 注意 的 是 ， 主 线程 不 关闭 已 连接 套 接 字 ， 而 在 调用 fork 的 并 
发 服务 器 程序 中 我 们 却 总 是 反 着 做 。 这 是 因为 同一 进程 内 的 所 有 线程 
共享 全 部 描述 符 ， 要 是 主线 程 调 用 close， 它 就 会 终止 相应 的 连接 。 
创建 新 线程 并 不 影响 已 打开 描述 符 的 引用 计数 ， 这 一 点 不 同 于 fork。 

本 程序 中 有 一 个 微妙 的 错误 ， 我 们 将 在 26.5 节 详细 讲解 。 你 能 指 
出 这 个 错误 吗 ? (见习 题 26.5) 


26.4.1 ”给 新 线程 传递 参数 
我 们 提 到 过 图 26-3 中 把 整数 变量 connfd 类 型 强制 转换 成 void 指 


系统 上 都 能 起 作用 。 要 正确 地 处 理 这 一 点 需要 做 额 
工作 。 
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首先 注意 我 们 不 能 简单 地 把 connfd 的 地 址 传递 给 新 线程 。 也 就 
征 阅 如 下 代码 并 不 起 作用 。 


int 
main(int argc, char **argv) 


int listenfd, connfd; 


fr (;;)d 
len = addrlen; 
connfd = Accept(listenfd, cliaddr, &len); 


Pthread_create(&tid, NULL, &doit, &connfd); 


static void * 
doit(void *arg) 
{ 


int connfd; 


connfd = *((int *) arg); 

Pthread_detach(pthread_self()); 

str_echo(connfd); /* same function as before */ 
Close(connfd); /* done with connected socket */ 
return(NULL); 


从 ANSIC 角 度 看 这 是 可 以 接受 的 : ANSI C 保 证 我 们 能 够 把 一 个 整 
数 指针 类 型 强制 转换 为 void *， 然 后 把 这 个 (void *) 指针 类 型 强 
制 转换 回 原来 的 整数 指针 。 问 题 就 出 在 这 个 整数 措 针 指向 什么 上 。 


主线 程 中 只 有 一 个 整数 变量 connfd， 每 次 调用 accept 该 变量 都 
会 被 覆 写 以 一 个 新 值 (已 连接 描述 符 ) 。 因 此 可 能 发 生 下 述 情 况 。 


。accept 返 回 ， 主 线程 把 返回 值 ( 壁 如 说 新 的 描述 符 是 5) FEA 
connfd 后 调用 pthread__ create。pthread_create 的 最 后 
一 个 参数 是 指向 connfd 的 指针 而 不 是 connfd 的 内 容 。 

。 Pthread 函 数 库 创 建 一 个 线程 ， 并 准备 调度 doit 函 数 启动 执行 。 

。 夯 一 个 连接 束 绪 且 主 线程 在 新 创建 的 线程 开始 运行 之 前 再 次 运 
行 。accept 返 回 ， 主 线程 把 返回 值 〈 璧 如 说 新 的 描述 符 现 在 是 
6) 存 入 connfd 后 调用 pthread_create。 


尽管 主线 程 共 创 建 了 两 个 线程 ， 但 是 它们 操作 的 都 是 存放 在 
connfd 中 的 最 终 值 (我 们 假设 是 6) 。 问 题 出 在 多 个 线程 不 是 同步 地 


访问 一 个 共享 变量 〈 以 取得 存放 在 connfd 中 的 整数 值 ) 。 在 图 26-3 
中 ， 我 们 通过 把 connfd 的 值 (而 不 是 指向 该 变量 的 一 个 指针 ) 传递 
给 pthread_create 来 解决 本 问题 。 按 照 C 加 被 调用 函数 传递 整数 值 
的 方式 《把 该 值 的 一 个 副本 推 入 被 调用 函数 的 栈 中 ) ， 这 个 解决 办 法 
是 可 行 的 。 
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图 26-4 给 出 了 解决 本 问题 的 更 好 办 法 。 


threadvicoserv0Z.c 


1 #iix:Llude "uzptliread. ti" 


2 static void *2oit(vcid *); /* each thread executes this function */ 
3 int 

4 wain(int arcc, char **argv) 

5 { 

S int listenfd. *iptr; 

7 thresd t tid; 

8 sockler_t addrlen, len: 

9 struct sockaddr *eliaddr; 

14 if (argc == 2) 

11 listenfd = ‘ep lieten(M.L., argv[i), &sdórlen); 

12 else if {argc == 3) 

15 listenfd = Tcp listen(argv 1], argv[2], S&addrlen:; 
14 else 

15 err quit('usage: tcpservUül [ <host> ] -service or port>"); 
16 cliaddr = Mallcc(addrlen!; 

17 for (zs) { 

16 len = addrlen; 

19 iptr = Mallocisizeofí(int)!; 

20 miprr = Aeccepr(listenfd, cliaddr, lan); 

21 Pthread create (&tad, NULL, adoit, iptr); 

22 j 

23 1 


^ jJ 


24 szatic void * 
25 doit(voi$i *arg! 


26 | 

27 int -counfd; 

28 connfd = *(íint *) arg'; 

29 free4arg) + 

30 Pthreac_detach(pthread_seltf{}); 

31 str_echo(connfd) ; /* same fimction as before */ 

32 Close (coonfd) ; /* Gone with coawcted sucker ^/ 
33 return (NULL) ; 

34 } 


ihreadstopservóz.c 


图 26-4 ”使 用 线程 且 参 数 传递 更 具 移 植 性 的 TCP 回 射 服务 器 程序 


17-22 每 当 调 用 accept 时 ， 我 们 首先 调用 malloc 分 配 一 个 整 
数 变 量 的 内 存 空 间 ， 用 于 存放 有 待 accept 返 回 的 已 连接 描述 符 。 这 
使 得 每 个 线程 都 有 各 自 的 已 连接 描述 符 副 本 。 


28-29 ”线程 获取 已 连接 描述 符 的 值 ， 然 后 调用 free 释 放 内 存 空 
间 。 


mal1oc 和 free 这 两 个 函数 历来 是 不 可 重 入 的 。 换 句 话 说， 在 主 
线程 正 处 于 这 两 个 函数 之 一 的 内 部 处 理 期 间 ， 从 某 个 信号 处 理 函 数 中 
调用 这 两 个 函数 之 一 有 可 能 导致 灾难 性 的 后 果 ， 这 是 因为 这 两 个 函数 
操纵 相同 的 静态 数据 结构 。 有 既然 如 此 ， 我 们 如 何 才能 在 图 26-4 中 调用 
这 两 个 函数 呢 ? POSIX 要 求 这 两 个 函数 以 及 许多 其 他 函数 都 是 线程 安 
全 的 (thread-safe) 。 这 个 要 求 通常 通过 在 对 我 们 透明 的 库 函 数 内 部 执 
行 某 种 形式 的 同步 达到 。 
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26.4.2 REEKS 


除了 图 26-5 中 列 出 的 函数 外 ，POSIX.1 要 求 由 POSIX.1 和 ANS 标 准 
定义 的 所 有 函数 都 是 线程 安全 的 。 


不 必 线 程 安全 的 版 本 必须 线程 安全 的 版 本 

asctire asctime I 
ctermic 仅 当 参数 非 空 时 才 是 线程 安全 的 

clime clime r 

cetc unlocked 

cctchar unloc«ed 

cetgrid getgric_r 

cetgrnam ge-grnarm r 

get login ge-login r 

cetpanam ge-pwraw r 

cetpwuid ge-pwuid r 

emtime gm-ime x 

localtims localtime_r 

putc unlocked 

putcFar unlocked 

rand rand r 


readdir readdir r 
etrtck strtok x 


tmpnam 仅 当 参数 非 罕 时 才 是 线程 安全 的 
rtynare ttyname r 


cethostyyy 
cetnstiXY 
cetprctoYXXV 
getsserv XXX 
inet ntos 


图 26-5 ”线程 安全 函数 


不 幸 的 是 ，POSIX 未 就 网 络 编程 API 函 数 的 线程 安全 性 作出 任何 规 
定 。 本 表 中 最 后 5 行 来 源 于 Unix 98。 我 们 在 11.18 节 讨论 过 
gethostbyname 和 gethostbyaddr 的 不 可 重 入 性 质 。 我 们 提 到 
说 : 尽管 一 些 六 家 定义 了 这 两 个 函数 以 _r 结 尾 其 名 字 的 线程 安全 版 
本 ， 不 过 这 些 线程 安全 函数 没有 标准 可 循 ， 应 该 避免 使 用 。 图 11-21 汇 
总 了 所 有 不 可 重 入 的 getXXX 辑 数 。 
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我 们 从 图 26-5 看 到 ， 让 一 个 函数 线程 安全 的 共通 技巧 是 定义 一 个 
名 字 以 _『 结 尾 的 新 函数 。 其 中 两 个 函数 (ctermid 和 tmpnam) 的 线 
程 安 全 条 件 是 : 调用 者 为 返回 结果 预先 分 配 空间 ， 并 把 指向 该 空间 的 
站 秆 作为 参数 传递 给 函数 。 


26.5 “线程 特定 数据 


把 一 个 未 线程 化 的 程序 转换 成 使 用 线程 的 版 本 时 ， 有 了 时 会 页 到 
其 中 有 函数 使 用 静态 变量 而 引起 的 一 个 常见 编程 错误 。 和 许多 与 线程 
相关 的 其 他 编程 错误 一 样 ， 这 个 错误 造成 的 故障 也 是 非 确 定 的 。 在 无 
需 考 虑 重 入 的 环境 下 编写 使 用 静态 变量 的 函数 无 可 非议 ， 然 而 当 同 一 
进程 内 的 不 同 线程 〈 信 号 处 理 函 数 也 视 为 线程 ) 几乎 同时 调用 这 样 的 
函数 时 就 可 能 会 有 问题 发 生 ， 因 为 这 些 函 数 使 用 的 静态 变量 无 法 为 不 
同 的 线程 保存 各 目的 值 。 图 3-18 给 出 的 read1ine 函 数 版 本 束 是 这 样 
的 一 个 例子 。 该 版 本 是 图 3-17 中 的 同名 函数 的 性 能 加 速 版 本 ， 它 调用 
的 my_read 函 数 使 用 3 个 静态 变量 。 这 些 静 态 变 量 是 为 处 理性 能 加 速 
而 增设 的 。% 这 个 编程 错误 是 在 将 现 有 的 函数 转换 成 在 线程 环境 中 运 
行 时 经 常 健 到 的 一 个 问题 ， 并 有 多 个 解决 办 法 。 


。 使 用 线程 特定 数据 。 这 个 办 法 并 不 简单 ， 而 且 转换 成 了 只 能 在 支 
持 线程 的 系统 上 工作 的 画 数 。 本 办 法 的 优点 是 调用 顺序 无 需 变 
动 ， 所 有 变动 都 体现 在 库 函 数 中 而 非 调用 这 些 函 数 的 应 用 程序 
中 。 我 们 将 在 本 节 靠 后 给 出 一 个 使 用 线程 特定 数据 达成 线程 安全 
的 readline 版 本 。 

。 改 变调 用 顺序 ， 由 调用 者 把 readline 的 所 有 调用 参数 封装 在 一 
个 结构 中 ， 并 在 该 结构 中 存 入 出 自 图 3-18 的 静态 变量 。 这 个 办 法 
也 曾经 使 用 过 ， 图 26-6 给 出 了 新 的 结构 和 新 的 函数 原型 。 


= e T 
typecef struct | 


int read fd; /* caller's descriptor to read Efrem */ 
char *read ptr; /* caller's buffer to read into */ 
size t read_maxlen; /* caller's max 4bytes to read */ 
/* next three are used internally by the function */ 
int rl_cnt; /* initialize to 0 */ 
char árl bufptr; /* initialize to rl buf */ 
char rl but [MAXLTNE] ; ii 
* Rline; 
void readline rinit(int, void *, size t, Rline *); 


ssize t readline r(Rline *); 
ssize t Readline r(Rline *); 


图 26-6 readline 可 重 入 版 本 的 数据 结构 及 函数 原型 


这 些 新 函数 在 支持 线程 和 不 支持 线程 的 系统 上 都 可 以 使 用 ， 不 过 
调用 readline 的 所 有 应 用 程序 都 必须 修改 。 


。 改变 接口 的 结构 ， 避 人 免 使 用 静态 变量 ， 这 样 函数 束 可 以 古 线 程 安 
全 的 。 对 于 readline 例 子 来 说 ， 这 相当 于 名 略图 3-18 中 引入 的 
性 能 加 速 ， 回 到 图 3-17 的 较 老 版 本 。 有 既然 我 们 说 个 这 个 较 老 版 本 
极为 低 效 ， 这 个 办 法 不 一 定 行 得 通 。 

使 用 线程 特定 数据 是 使 得 现 有 函数 变 为 线程 安全 的 一 个 闻 用 拉 
巧 。 在 讲解 操纵 线程 特定 数据 的 Pthread 函 数 之 前 ， 我 们 先 讲述 这 个 概 
念 本 身 和 一 个 可 能 的 实现 ， 因 为 这 些 画 数 看 起 来 比 实际 的 还 要 复杂 。 
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部 分 复杂 性 源 于 许多 关于 线程 使 用 的 教材 都 把 对 线程 特定 数据 的 
讲解 写 得 读 起 来 像 是 在 描述 Pthreads 标 准 本 身 ， 把 键 一 值 (key-value) 
对 和 键 (key) 作为 不 透明 对 象 (opaque object) 来 讨论 。 我 们 以 索引 

(index) 和 指针 (pointer) 来 刻 划 线 程 特定 数据 ， 因 为 普通 的 实现 把 
一 个 小 整数 索引 用 作 键 ， 与 索引 关联 的 值 只 是 一 个 指 同 由 线程 
malloc 的 某 个 内 存 区 的 指针 。 


每 个 系统 文 持 有 限 数 量 的 线程 特定 数据 元 素 。POSIX 要 求 这 个 限 
制 不 小 于 128 (每 个 进程 ，， 在 后 面 的 例子 中 我 们 就 采用 128 这 个 限 
制 。 系 统 〈 可 能 是 线程 函数 库 ) 为 每 个 进程 维护 一 个 我 们 称 之 为 Key 
结构 的 结构 数组 ， 如 图 26-7 所 示 。 


标志 
_ 析 构 函 数 指针 
标志 
_ 析 构 函 数 指针 


ENS NNI 
析 构 函数 指针 


图 26-7 ”线程 特定 数据 的 可 能 实现 


Key 结 构 中 的 标志 指示 这 个 数组 元 素 是 否 正在 使 用 ， 所 有 的 标志 
初始 化 为 “不 在 使 用 ”。 当 一 个 线程 调用 pthread_key_create 创 建 
一 个 新 的 线程 特定 数据 元 素 时 ， 系 统 搜 索 其 Key 结 构 数组 找 出 第 一 个 
不 在 使 用 的 元 素 。 该 元 素 的 索引 (0~127) MAB (key) ， 返 回 给 调 
ii C UNES 。 我们 稍 后 讨论 Key 结 构 的 另 一 个 成 员 “ 析 构 画 
ZXIA 9 


除了 进程 范围 的 Key 结 构 数 组 外 ， 系 统 还 在 进程 内 维护 天 于 每 个 
线程 的 多 条 信息 。 这 些 特定 于 线程 的 信息 我 们 称 之 为 Pthread 结 构 ， 
其 部 分 内 容 是 我 们 称 之 为 pkey 数 组 的 一 个 128 个 元 素 的 指针 数组 。 
26-8 展 示 了 这 些 信息 。 


Key [127] 


线程 0 tk Fin 


Pthread{ } Pthread[? 


其 他 线程 信息 Hf ee Ff al. 


pkey [01 pkey !01 NULL 
pkey [1] pkey [1] NULL 
线程 特定 数据 项 
pkey [227] pkey [227] NULL | 
图 26-8 ”系统 维护 的 关于 每 个 线程 的 信息 
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pkey 数 组 的 所 有 元 素 都 税 初 始 化 为 空 指针 。 这 些 128 个 指针 钙 和 
进程 内 的 128 个 可 能 的 “ 键 ” 逐 一 关联 的 值 。 


当 我 们 调用 pthread_key_create 创 建 一 个 键 时 ， 系 统 告诉 我 
们 这 个 键 (索引 ) 。 每 个 线程 可 以 随后 为 该 键 存储 一 个 值 〈 指 针 ) ， 
而 这 个 指针 通常 又 是 每 个 线程 通过 调用 malloc 获 得 的 。 线 程 特定 数 
据 中 易于 混淆 的 地 方 之 一 是 : 该 指针 是 键 - 值 对 中 的 值 ， 但 是 真正 的 线 
程 特定 数据 却 是 该 指针 指向 的 任何 内 容 。 


我 们 现在 仔细 查看 一 个 如 何 使 用 线程 特定 数据 的 例子 ， 前 提 是 我 
们 的 readline 画 数 使 用 线程 特定 数据 跨 对 于 它 的 相继 调用 维护 每 个 
线程 各 自 的 状态 。 我 们 稍 后 通过 修改 原来 的 read1ine 画 数 展示 遵循 
这 些 步骤 的 代码 。 


(1) 一 个 进程 被 启动 ， 多 个 线程 被 创建 。 


(2) 其 中 一 个 线程 〈 璧 如 说 线程 0) 是 首 个 调用 readlLine 函 数 的 
线程 ， 该 函数 转 而 调用 pthread_key_create。 系 统 在 图 26-7 所 示 
Key 结 构 数组 中 找到 第 一 个 未 用 的 元 素 ， 并 把 它 的 索引 (0~127) 返 
回 给 调用 者 。 我 们 在 本 例子 中 假设 找到 的 索引 是 1。 


我 们 将 使 用 pthread_once 函 数 确保 pthread_key_create 只 
是 被 第 一 个 调用 read1line 的 线程 所 调用 。 


(3) readline 调 用 pthread_getspecific 获 取 本 线程 的 
pkey[1] 值 (图 26-8 中 作为 键 1 之 值 的 “指针 ”) ， 返 回 值 是 一 个 空 指 
针 。read1ine 于 是 调用 mal1oc 分 配 内 存 区 ， 用 于 为 本 线程 路 相继 的 
readline 调 用 保存 特定 于 线程 的 信息 。readline 按 照 需要 初始 化 
该 内 存 区 ， 并 调用 pthread_setspecific 把 对 应 所 创建 键 的 线程 特 
定数 据 指 针 (pkey[1]) 设置 为 指向 它 刚 刚 分 配 的 内 存 区 。 图 26-9 展 
示 了 此 时 的 情形 ， 其 中 假设 调用 线程 是 线程 0 。 


浅 程 0 线程 n 


此 他 线程 信息 HL A Fe fis A. 


pkey [0] pkey [0] 


pkey .1] pxey [1] 


pxev[127] 


线程 分 配 的 内 存 区 域 


实际 数据 


图 26-9 ”把 malloc 到 的 内 存 区 和 线程 特定 数据 指针 相关 联 


我 们 在 该 图 中 指出 ，Pthread 结 构 是 系统 (可 能 是 线程 范 数 麻 ) 
维护 的 ， 而 我 们 malloc 的 真正 线程 特定 数据 是 由 我 们 的 函数 (本 例 
中 为 readline) 维护 的 。pthread_setspecific 所 做 的 只 是 在 
Pthread 结 构 中 把 对 应 指定 键 的 指针 设置 为 指向 分 配 的 内 存 区 。 类 似 
地 ，pthread_getspecific 所 做 的 只 是 返回 对 应 指定 键 的 指针 。 


(4) 男 一 个 线程 〈 璧 如 说 线程 m) 调用 readline， 当 时 也 许 线程 0 
仍然 在 readline 内 执行 。 


readline 调 用 pthread_once 试 图 初始 化 它 的 线程 特定 数据 元 
素 所 用 的 键 ， 不 过 既然 初始 化 函数 已 被 调用 过 ， 它 就 不 再 被 调用 。 


(5) readline 调 用 pthread_getspecific 获 取 本 线程 的 
pkey[1] 值 ， 返 回 值 是 一 个 空 指针 。 线 程 n 于 是 就 像 线程 0 那 样 完 调用 
malloc， 再 调用 pthread_setspecific， 以 初始 化 相应 键 (1) 的 
线程 特定 数据 。 图 26-10 展 示 了 此 时 的 情形 。 


线程 0 线程 
| 
| 
| 其 他 线程 信息 由 地 线程 信息 
pkey [0] | E: hiit pkey [0] TRH M 
pkey [1] 指针 a. T pkey [1] . x 
\ 
| 
pkev [127] NULL pkey[-271 
RH ath Hy 


图 26-10 ”线程 n 初 始 化 它 的 线程 特定 数据 后 的 数据 结构 


我 们 未 曾 解决 的 一 个 问题 是 当 一 个 线程 终止 时 会 发 生 什 么 ? 如 果 

该 线程 调用 过 我 们 的 read1Line 画 数 ， 那 么 该 画 数 已 经 分 配 了 一 个 需 
要 释放 掉 的 内 存 区 。 这 正 是 图 26-7 中 的 “ 析 构 函数 指针 ”的 用 武之 地 。 
一 个 线程 调用 pthread_key_create 创 建 某 个 线程 特定 数据 元 素 

时 ， 所 指定 的 函数 参数 之 一 是 指向 某 个 析 构 函数 (destructor) 的 一 个 

和 针 。 当 一 个 线程 终止 时 ， 系 统 将 扫描 该 线程 的 pkey 数 组 ， 为 每 个 非 
空 的 pkey 指 针 调 用 相应 的 析 构 函数 。“ 相 应 的 析 构 函数 ” 指 的 是 存放 在 
图 26-7 的 Key 数 组 中 的 函数 指针 。 这 是 一 个 线程 终止 时 释放 其 线程 特 
定数 据 的 手段 。 


处 理 线程 特定 数据 时 通常 百 完 调用 pthread_once 和 
pthread_key_create 两 个 函数 。 


#include <pthread.h> 


int pthread once(pthread once t *onceptr, void (*init)(void)); 


int pthread key create(pthread key t *keyptr, void (*destructor) 
(void *value)); 


HRE: ARHUN, AE 


则 为 正 的 Exxx 值 


每 当 一 个 使 用 线程 特定 数据 的 函数 被 调用 时 ，pthread_once 通 
常 转 而 被 该 函数 调用 ， 不 过 pthread_once 使 用 由 onceptr 参 数 指向 的 
变量 中 的 值 ， 确 保 init 人 参数 所 指 的 函数 在 进程 范围 内 只 被 调用 一 次 。 


在 进程 范围 内 对 于 一 个 给 定 键 ，pthread_key_create 只 能 被 
调用 一 次 。 所 创建 的 键 通过 keyptr 指 针 参 数 返 回 ， 如 果 destructor 指 针 
参数 不 为 空 指 守 ， 它 所 指 的 函数 将 由 为 该 键 存放 过 某 个 值 的 每 个 线程 
在 终止 时 调用 。 


这 两 个 函数 的 典型 用 法 如 下 所 示 〈 不 考虑 出 错 返 回 ) 。 
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pthread_key_t rl key; 
pthread once t rl once - PTHREAD ONCE INIT; 


void 
readline destructor(void *ptr) 


free(ptr); 
void 
readline once(void) 


pthread key create(&rl key, readline destructor); 


j 


ssize t 
readline( ... ) 


{ 


pthread once(&rl once, readline once); 


if ( (ptr = pthread getspecific(rl key)) == NULL) { 
ptr = Malloc( ... ); 
pthread setspecific(rl key, ptr); 
/* initialize memory pointed to by ptr */ 


j 


/* use values pointed to by ptr */ 


每 次 readline 被 调用 时 ， 它 都 调用 pthread_once ° 
pthread_once 使 用 由 其 onceptr 参 数 指向 的 值 (变量 rl1_once 的 内 
容 ) 确保 由 其 init 参 数 指向 的 函数 只 被 调用 一 次 。 初 始 化 函数 
readline_once 创 建 一 个 线程 特定 数据 键 存 放 在 r1_key 中 ， 
readline 随 后 在 pthread_getspecific 和 
pthread_setspecific 调 用 中 使 用 这 个 键 。 


pthread getspecificflipthread setspecificixWj EN 
BUTT FAT ARAN EIS SE MAE ^. A ie 31] HE 26-87 
称 之 为 “指针 ”的 东西 。 该 指针 的 具体 指向 取决 于 应 用 程序 ， 不 过 通常 
情况 下 它 指 向 一 个 动态 分 配 的 内 存 区 。 


#include <pthread.h> 


void *pthread_getspecific(pthread_key_t key); 


返回 : 指向 线程 特定 数据 的 + 


可 能 


int pthread_setspecific(pthread_key_t key, const void *value); 


返回 : AANA, 3 


BMWA IERJEXXxx18 


注意 ，phread_key_create 的 参数 是 一 个 指向 某 个 键 的 指针 
(因为 该 函数 需要 在 其 中 存放 由 系统 赋予 该 键 的 值 ) ， 而 那 两 个 get 
(可 能 如 早先 讨论 的 那样 是 一 个 小 整数 
索引 ) 。 


例子 : ARPES readline HR 


ffi UAE HE A3-18 F readline KARAREHE 
a 线程 特定 数据 的 完整 例 

图 26-11 给 出 该 函数 的 第 一 部 分 : pthreadkey_t 变 量 、 
pthread_once_t 变 量 、readline destructor WAX ` 
readline_once 函 数 以 及 包含 必须 基于 每 个 线程 维护 的 所 有 信息 的 
Rline 结 构 。 
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threads/readiline.c 


1 #include "unpthread. ti" 


2 static pthread key t rl key; 
3 etatic pthread onze t rl once = PTHREAD ONCE INIT: 


4 static void 

S readline_destructor(vo:d “ptr! 
st 

? free (ptr): 

8) 


$ static void 

10 reedline once ,voidi 
11 | 

12 Pthread_key_crcate(&rl_key, readline_destructor] ; 
13 


14 typedef srrucr | 


15 int rl cnt, /* initialize to 0 */ 

16 char ‘*rl_bufpcr; /^* initialize to r1 buf */ 
17 char rl tuf(MAXLINE]: 

16 ] Rline: 


Ü|ImreeulsA eum TMiowe t 


图 26-11 ”线程 安全 的 readline 函 数 的 第 一 部 分 


析 构 函数 
4-8 ”我 们 的 析 构 函数 仅仅 释放 由 相应 线程 早先 分 配 的 内 存 区 。 
一 次 性 函数 


9-13 我 们 的 一 次 性 函数 将 由 pthread_once 调 用 一 次 ， 它 只 
是 创建 由 readline 使 用 的 键 。 


Rline 结 构 


14-18 _Rline 结 构 含 有 因 在 图 3-18 中 声明 为 static 而 导致 前 述 
问题 的 那 3 个 变量 。 调 用 read1ine 的 每 个 线程 都 由 read1Line 动 态 分 
配 一 个 RLine 结 构 ， 然 后 由 析 构 函数 释放 。 


图 26-12 给 出 真正 的 readline 了 画 数 和 由 它 调用 的 my_read 函 数 。 
该 图 是 对 图 3-18 所 做 的 一 个 修改 。 


trecds eoline.r 
19 static ssize t 
20 ny read(Rline *tsd, in- fd, char *p-r) 


2: 1d 
a2 if (tsd-»rl cnt <- 0) [ 

23 azain: 

24 if ( (ted-»rl cont = rsad;Ed, ted-»rl buf, MAXLINE)! < 0) { 
z5 it (errnc -- BINT! 

26 goto again; 

2^ returní-1); 

38 ) eise if (tsmd-»r1 rnr == 0) 

29 recurn (0); 

30 tse-srl bufpzr - tsd->rl cuf; 

d } 

32 tzd-»rl ent--: 

33 *str = *ted »rl cufptre; 

34 returait); 

35 + 

76 swim t 

37 readlineiirt =¢, void *vptr, seize t maxlen) 

38 ， 

39 size © n, xc; 

40 cenar c, “ptr; 

4- Rl-ne *tsd; 

2 Pthread once(&rl once, readline_oncel ; 

43 if ( (tsd - pthread_getspecific(rl_xey)) -- NULL) { 
44 tsi = Calloc(1, sizeof(Rline));  /^ init tc 23 */ 
45 Pthreac setspecifici(-1 key, tsd!; 

a6 ; 

q ptr = vptr; 

48 for in = 1; r < maxlen; ni) { 

49 if ( (rc = my read(tsi, få, &c)| == 1) į 

50 *ptre=- = C; 

6? if (c ss '\n*) 

52 break; 

53 ) eise if (re == 0) [ 

t4 *ptr = 0; 

55 retuxnín - 1}; /* BOF, n - 1 bytee read */ 
Sé } celse 

5? return(-1); /* error; errno set by -eaz() */ 
58 

59 totr = 0; 

EN ret arzi ina)? 

gi} 


tireculsA vin] 1 


图 26-12 ZExfE4readlineEKZKBz — up 


my readESZK 


19-35 本 函数 的 第 一 个 参数 现在 是 指向 预 完 为 本 线程 分 配 的 
Rline 结 构 ( 即 真 正 的 线程 特定 数据 的 一 个 指针 。 


分 配 线程 特定 数据 


42 我 们 首先 调用 pthread_once， 使 得 本 进程 内 第 一 个 调用 
readline 的 线程 通过 调用 pthread_once 创 建 线程 特定 数据 键 。 


获取 线程 特定 数据 指针 


43-46 pthread_getspecific 返 回 指向 特定 于 本 线程 的 
R1Line 结 构 的 指针 。 然 而 如 果 这 次 是 本 线程 首次 调用 readline， 其 
返回 值 将 是 一 个 空 指针 。 在 这 种 情况 下 ， 我 们 分 配 一 个 RLine 结 构 的 
空间 ， 并 由 calloc 将 其 rl_cnt 成 员 初 始 化 为 0° 然后 我 们 调用 
pthread_setspecific 为 本 线程 存储 这 个 指针 。 下 一 次 本 线程 调用 
readline 时 ，pthread_getspecific 将 返回 这 个 刚 存储 的 指针 。 
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26.6 Web 客户 与 同时 连接 


我 们 现在 回顾 一 下 16.5 节 的 Web 客 户 程序 例子 ， 并 把 它 重 新 编写 
成 用 线程 代替 非 阻 塞 connect。 改 用 线程 之 后 ， 我 们 可 以 让 套 接 字 停 
留 在 默认 的 阻塞 模式 ， 改 而 为 每 个 连接 创建 一 个 线程 。 每 个 线程 可 以 
阻塞 在 它 的 connect 调 用 中 ， 因 为 内 核 (也 可 能 是 线程 画 数 库 ) 会 转 
而 运行 另外 某 个 就 绪 的 线程 。 


图 26-13 给 出 本 程序 的 第 一 部 分 ， 包 括 全 局 变量 和 main 画 数 的 开 
首部 分 。 


1 fircluic 
2 fincluce 


3 fderins 
4 #defins 


threads/webDl.c 
"u3pthrcad.h' 


stnread.h> /* Solaris threads */ 
MAXFILES 20 
SERV "gy" /* port number cr service rame */ 


E struct file 

€ char ^*£ name, /* filename */ 

时 uhar af host; j> tostoane or TP address 4,/ 
& int f fd; /* descriptor */ 

9 int t flags; /* F soc below */ 

10  pthrzeai t f tid; /* thread ID */ 

11 } file[MAXF-LES]: 

12 fdefine EF CONNECTING L /* comnect() in progress */ 
13 #detine F_READING 2 /* connect() complete; now reacing */ 
14 #define P LONE 4 /* all done */ 

15 #define GET CMT "GET ts HTTP/1.0nMr NON r\n" 

16 int reenr, nfiles, nleferceonn, nie*rroreat; 

17 void "dz cet read(void v): 

18 void Lore paqs/conot char +, ccnot char *): 

19 void write get omdistrzuct Eile *!; 

20 int 

21 main(int arg-, char **argv; 

32 | 

23 int i, n, maxnconn: 

24 p-hrea t tid; 

25 s-zruacc tile *fztr; 

26 it (arge < 5) 

? err_quit{"usage; web <#conns> <IPacdr» «homepage» filel ..."); 
28 maxacann = atoi[argv[1]): 

29 nfiles = min(argc - 4, MAXFILES!; 

30 for li = 0; i < nfilee: i++) { 

31 filc|il|.E name = arevli + 4); 

2 file[i]|.E host = ergv[2]; 

33 file[].f flags = 0; 

34 } 

35 print ("nftiles = $d*Mn", nfiles}; 

36 home page(aragv[2], argvi3]:; 

37 nleEttorea= = nleftteconn = nfiles; 

38 nconn = 0: 


全 局 变量 


和 


图 26-13 全 


局 变量 和 main 函 数 的 开 首部 分 


1-16 除了 通常 的 <pthread ,h> 头 文件 外 ， 我 们 还 包含 
<thread .h> 头 文件 ， 因 为 除了 使 用 Pthread 线 程 外 ， 我 们 还 需要 使 用 
Solaris 线 程 ， 这 一 点 我 们 稍 后 就 讲解 。 


10 ”我 们 在 file 结 构 中 增加 了 一 个 成 员 f_tid (ID) 。 这 
段 代 码 其 余部 分 与 图 16-15 类 似 。 在 线程 版 本 中 我 们 不 再 使 用 
select， 因 而 不 需要 任何 描述 符 集 或 变量 maxfd 。 

36 所 调用 的 home_page 画 数 就 是 图 16-16， 没 有 改动 。 


图 26-14 给 出 main 线 程 的 主 处 理 循环 。 


tirecds^webül.c 


39 waile inlefttoread > 0! [ 
40 while {nzomm < maxncorn &5 nlefttocorn > 0! ( 
11 /* find a iile to read */ 
42 for (2 = 0; 1 4 
43 if (file[i].f zlase == J) 
44 oreak; 
45 i= (i == niles) 
a6 err quit ("nlefttocom = td but nothing found", nlefttceonn); 
47 filec[i].t tiago = F CONNECTINC; 
ag Ltrread create(&tid, NULL, do get read, &file[i)]); 
39 file[i].t zid - tid; 
EQ noonn-e; 
51 nlsfttcccna--; 
52 ) 
if ( (ñ = thr join(O, atid, (void **) &frztr)) I= 0) 
54 errno = n, err _sye("thr_join error"); 
E5 neonr--; 
5 nlctttcro2ad ; 
BT printt ("thread id $å for ès done\n", tid, tpzr-»- name]; 
Eg ] 
£9 ex 3) 
60 


tir eruds ^ne bild i 


图 26-14 _ main 函数 的 主 处 理 循环 
者 可 能 则 创建 另 一 个 线程 
40-52 如 果 创 建 另 一 个 线程 的 条 件 (nconn 小 于 maxnconn) 


能 够 满足 ， 我 们 就 创建 一 个 。 每 个 新 线程 执行 的 函数 是 
do_get_read, 传递 给 它 的 参数 是 指向 file 结 构 的 指针 。 


694~ 
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等 待 任何 一 个 线程 终止 


53-54 jee — PSSA NOVA Hl Solaris Fi HBL 
thr join, EHE — T ZERREA IE » SERIE, Pthreadsit APES 
待 任 一 线程 终止 的 手段 ，pthread_join 画 数 8 要 求 我 们 显 式 指定 想 
要 等 待 的 线程 。 我 们 将 在 26.9 节 看 到 ，Pthreads 解 决 本 问题 的 办 法 较为 
me aa 


我 们 给 出 的 使 用 Solaris 线 程 函 数 thr_join 的 办 法 难以 移植 到 所 
有 环境 下 。 尽 管 如 此 ， 我 们 在 展示 这 个 使 用 线程 的 Web 客户 程序 例子 
时 ， 并 不 希望 因为 引入 条 件 变 量 和 互 斥 锁 而 搞 复 杂 对 它 的 讨论 。 所 幸 
的 是 我 们 可 以 在 Solaris 环 境 下 混合 使 用 Pthreads 线 程 和 Solaris 线 程 。 

图 26-15 给 出 的 是 由 每 个 线程 执行 的 do_get_read 函 数 。 该 函数 
建立 TCP 连 接 ， 给 服务 器 发 送 一 个 HTTP GET 命 令 ， 并 读 入 来 自 服务 
ATH ID. o 


theeads/webO1.c 


61 void * 
62 do get rsadí/void *vyptr! 
63 | 


64 int Ed. n; 

65 char Line (MAXLINE! ; 

be struct file *fptr; 

67 fptr = letruct file *) vptr; 

KE fd = Tep connect (fpt-»f. Post, SERV); 

69 fptr-st fd - fd; 

76 printz(*2o qst read for $c, fd td, thread tdm", 

71 fp-r-»f name. få; f;tr-»f tid'; 

72 write set cnditptr!; /* writa;) the GET command */ 
73 /* Read se-ver's rez y */ 

74 fort ss ht 

75 it | in = Read(td, line, MAXLINE)} == 2) 

76 zreax, /* server closed connection */ 
Ti crin-f ("read $d bytes from ¢s\n", r, fotr--f_name): 

76 } 

79 printf (*end-of-file on %s\n", fptr-»f name), 

ao Close (fri) ， 

31 fptr--f flags ~ F DONE: /* cigars F READING */ 

82 return(fptr); /* terminate thread */ 

a2 ) 


thred ^ed i 


图 26-15 do get readERZW 


创建 TCP 套 接 字 并 建立 连接 


68-71 Jühtcp connectENZEGIE — ATCP ERF FE S— 
连接 。 该 套 接 字 是 一 个 通常 的 阻塞 式 套 接 字 ， 因 此 线程 将 阻塞 在 
connect HHF, HANERE ° 


FURS BES ER 


72 调用 write_get_cmd 构 造 HTTP GET 命 令 并 把 它 发 送 到 服 
务 器 。 我 们 不 再 给 出 该 函数 的 代码 ， 它 和 图 16-18 的 唯一 区 别 是 线程 版 
本 不 调用 FD_SET， 也 不 使 用 maxfd 。 


读 入 服务 器 的 应 答 


73-82 ” 写 出 请 求 后 随即 读 入 服务 器 的 应 管 。 连 接 补 服务 右 关 闭 
时 设置 F_DONE 标 志 并 返回 ， 从 而 终止 本 线程 。 


我 们 同样 没有 给 出 home_page 函 数 ， 因 为 它 和 图 16-16 给 出 的 版 
本 一 样 。 


我 们 将 再 次 回 到 本 例子 ， 把 Solaris 的 thr_join 函 数 替 换 成 移植 
性 更 好 的 Pthreads 方 法 ， 不 过 在 此 之 前 我 们 必须 首先 讨论 互 不 锁 和 条 件 
TÉ 


aR 


md 


o 


26.7  HJFSÁ 


注意 图 26-14 中 ， 当 某 个 线程 终止 时 ， 主 循环 将 递减 nconn 和 
nlefttoread。 我 们 本 来 可 以 把 这 两 个 递减 操作 放 在 do_get_read 
函数 中 ， 让 每 个 线程 在 即将 终止 之 前 递减 这 两 个 计数 器 。 然 而 这 么 做 
却 是 一 个 微妙 而 重大 的 并 发 编程 错误 。 


把 计数 器 递减 代码 放 在 每 个 线程 均 执 行 的 函数 中 的 问题 在 于 那 两 
个 变量 是 全 局 的 ， 而 不 是 特定 于 线程 的 。 如 果 一 个 线程 在 递减 某 个 变 
量 的 中 途 被 挂 起， 而 另 一 个 线程 执行 并 递减 同一 个 变量 ， 那 就 可 能 导 
致 错误 。 举 例 来 说 ， 假 设 C 编 译 器 将 递减 运算 符 转 换 成 3 条 机 器 指令 : 
de c P ` 递减 寄存 器 、 从 寄存 器 存储 到 内 存 。 考 虑 如 下 
可 能 的 情形 © 


(1) 线程 A 运行 ， 把 nconn 的 值 (3) 装载 到 一 个 寄存 器 。 


(2) 系统 把 运行 线程 从 A 切换 到 B。A 的 寄存 器 被 保存 ，B 的 寄存 器 
则 被 恢复 。 

(3) 线程 B 执 行 与 C 表 达 式 nconn- -相对 应 的 3 条 指令 ， 把 新 值 2 存 
储 到 nconn。 


(4) 一段 时 间 之 后 ， 系 统 把 运行 线程 从 B 切 换 回 A。A 的 寄存 絮 被 恢 
复 ，A 从 原来 离开 的 地 方 〈 即 3 指令 序列 中 的 第 二 条 指令 ) 继续 执行 ， 
把 那个 寄存 器 的 值 从 3 递减 为 >， 再 把 值 2 存储 到 nconn。 


最 终 的 结果 是 nconn 本 该 为 1 实际 却 为 2。 这 十 错误 的 运行 结果 。 
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这 些 类 型 的 并 发 编程 错误 很 难 被 发 现 ， 其 原因 有 多 个 。 首 移 ， 这 
些 编程 错误 导致 的 运行 差错 很 少 发 生 。 然 而 无 论 如 何 它 们 毕竟 是 错 
误 ， 总 会 导致 运行 差错 (Murphy's Law, JEE) 。 其 次 ， 这 些 编 
程 错误 导致 的 运行 差错 难以 再 现 ， 因 为 运行 差错 取决 于 许多 事件 的 非 
确定 定时 关系 。 最 后 ， 某 些 系 统 上 递减 运算 符 的 硬件 指令 可 能 是 原子 
的 ， 也 残 是 说 这 些 系统 中 存在 可 递 城 内 存 中 某 个 整数 的 单条 硬件 指令 


( 顶 蔡 我 们 以 前 假设 的 3 指令 序列 ) ， 而 且 在 这 条 指令 的 执行 期 内 硬件 
不 能 被 中 断 。 当 然 我 们 不 可 能 保证 所 有 系统 都 是 如 此 ， 因 此 上 述 代码 
会 发 生 在 一 个 系统 上 起 作用 在 另 一 个 系统 上 却 不 起 作用 的 现象 。 


我 们 称 线程 编程 为 并 发 编程 (concurrent programming) 或 并 行 编 
程 (parallel programming) ， 因 为 多 个 线程 可 以 并 发 地 (或 并 行 地 ) 
运行 且 访问 相同 的 变量 。 虽 然 我 们 刚 讨 论 的 错误 情形 以 单 CPU 系统 为 
前 提 ， 但 是 如 有 果 线 程 A 和 B 同 时 运行 在 某 个 多 处 理 器 系统 的 不 同 CPU 
上 ， 潜 在 的 运行 差错 仍然 可 能 发 生 。 对 于 通常 的 Unix 编 程 ， 我 们 不 会 
健 到 这 些 并 发 编程 问题 ， 因 为 调用 fork 之 后 ， 父 子 进程 之 间 除 了 描述 
从 外 不 共享 任何 东西 。 然 而 当 我 们 讨论 在 进程 之 则 的 共享 内 存 区 时 ， 
仍然 会 碰 到 同类 问题 。 


我 们 可 以 使 用 线程 轻易 展现 这 个 问题 。 图 26-17 是 一 个 简单 的 程 
序 ， 它 创建 两 个 线程 ， 然 后 让 每 个 线程 递增 同一 个 全 局 变量 5000 次 。 


为 了 强化 运行 时 刻 的 出 错 可 能 性 ， 我 们 先 取得 counter 的 当前 
值 ， 再 显示 它 的 新 值 ， 然 后 存储 这 个 新 值 。 运 行 这 个 程序 ， 我 们 得 到 
如 图 26-16 所 示 的 输出 。 


1 


1: 
1: 
1: 
4: 
Fg Heed with AAT 
4i 517 
4: 518 
4: 518 HS (213 
4: 519 
4: 520 
Feet wb fy 
5: 926 
5: 927 
4; 519 "Ead PPP eR 
4: 520 


图 26-16 ”图 26-17 中 程序 的 输出 


c 
co 
co 


threadyexampledi.c 


1 #include “unpthread.h" 
2 #define NLOOF 5020 


3 int counter; /* incrementes by threads */ 
4 void *doicivoid *:; 
5 int 


6 main(int argc, char **argv! 


Hi pthread t cida, -idb; 
9 Pthread -reate(&tidA, NULL, &doit, NULL!; 

10 Pthread create(&tidB, NULL, &doit, NULL!; 

11 /* wait for both threads so terminate */ 

12 Pthread_join(tidA, NULL); 

is Pthreac_join(tidB, NULL); 

14 exicio); 

is } 

16 void * 

17 doit(void *vptr) 

ig | 

19 int i, val; 

20 /* 

21 * Bach thread fetches, prints, aab increments the counter NLOOP bores 
22 * The value of the counter should increase wonotonically. 
23 ej 

34 for (i = 0; i < NLOOP; i++; 1 

25 val - counter; 

2€ crincf ("gd: £&dir^, zthread self(), val + ll; 
27 comter - val + 1; 

2£ ) 

29 retuxrm(NULL!: 

30 ] 


threads/examplel.c 


ill 


变量 


图 26-17 ”两 个 线程 不 正确 地 递增 一 个 全 


请 注意 系统 首次 从 线程 4 切换 到 线程 5 时 发 生 的 错误 ， 每 个 线程 存 
储 的 值 都 是 518。 这 种 错误 在 10000 行 输出 中 发 生 了 许多 次 。 


如 果 我 们 运行 该 程序 若干 次 ， 这 种 类 型 间 题 的 非 确 定 本 性 就 同样 
得 以 显现 ， 每 次 运行 的 最 终结 果 都 不 同 于 前 一 次 运行 。 如 果 我 们 把 程 
序 的 输出 重 定向 到 磁盘 文件 ， 有 时候 就 不 发 生 运行 差错 ， 因 为 这 么 一 
来 程序 运行 得 更 快 ， 所 提供 的 线程 间 切 换 机 会 也 更 少 。 我 们 试验 过 的 
运行 差错 出 现 得 最 多 的 情形 是 : 交互 地 运行 该 程序 ， 把 程序 的 输入 写 
到 ( 慢 速 ) 终端 上 ， 同 时 使 用 Unix 的 script 程 序 (在 APUE 第 19 章 中 
详细 讨论 ) 把 整个 交互 过 程 的 输出 保存 到 一 个 文件 中 。 


Fe IMU AIT eA BES PE BY A Ep id FLY] 
题 。 其 解决 办 法 是 使 用 一 个 互 斥 锁 (mutex, fVXmutual exclusion) 保 
护 这 个 共享 变量 ; 访问 该 变量 的 前 提 条 件 是 持 有 该 互 斥 锁 。 按 照 
Pthread， 互 斥 锁 是 类 型 为 pthread_mutex_t 的 变量 。 我 们 使 用 以 下 
两 个 函数 为 一 个 互 斥 锁 上 锁 和 解锁 。 


#include <pthread.h> 


int pthread_mutex_lock(pthread_mutex_t *mptr); 


int pthread mutex unlock(pthread mutex t *mptr); 


HRE: 车 成 功 则 为 0O， 若 出 错 则 
为 正 的 Exxx 值 


如 果 试 图 上 锁 已 被 另外 某 个 线程 锁 住 的 一 个 互 扩 锁 ， 本 线程 将 被 
阻塞 ， 直 到 该 互 斤 锁 被 解锁 为 止 。 


如 果 某 个 互 斥 锁 变 量 是 静态 分 配 的 ， 我 们 就 必须 把 它 初始 化 为 常 
值 PTHREAD_MUTEX_INITIALIZER 。 我 们 将 在 30.8 节 看 到 ， 如 果 我 
们 在 共享 内 存 区 中 分 配 一 个 互 斥 锁 ， 那 么 必须 通过 调用 
pthread_mutex_init 函 数 在 运行 时 把 它 初始 化 。 


有 些 系统 (例如 Solaris) JSÉPTHREAD MUTEX INITIALIZER;EÉ 
义 为 0， 因 而 忽略 这 个 初始 化 步骤 可 以 接受 ， 因 为 静态 分 配 的 变量 被 目 
动 初始 化 为 0。 但 是 这 么 做 并 不 能 保证 可 以 被 普遍 接受 ， 因 为 其 他 系统 

(例如 Digital Unix) 把 初始 化 常 值 定义 为 非 0。 


图 26-18 是 图 26-17 的 改正 版 本 ， 它 使 用 单个 互 斥 锁 保护 由 两 个 线 
程 共 同 访问 的 计数 器 。 


threads/excmpiet2.c 


mI 


#include "unpthread. ti’ 
#define NLOOP 5C0J 


inr Counter; /* incremenred by threads */ 
pthread mutex t counter mutex = PIHREW MUTEX INITIALIZER} 


void *doit (void *!; 


int 
main(int arge, char **an) 


DOJA in > w LY] 
~ 


pthread t ticA, tidB; 


10 Pthread_create(&tidA, NULL, &Coit, NULLI ; 

1 P-hread create(&ridB, NULL, &2oit, NULL!; 

12 /* wait for both threads =o terminate */ 

13 Pthread join(tíd^, NULL); 

14 Pthread_join(tid2, NULL); 

15 exit ig), 

16 

17 void * 

18 doiz!void *vptr! 

19 | 

20 int i, val; 

a1 /* 

22 * Bach thread fetches, prints, and increments the counter NLCOP tives. 
* The valve of the count er show 4 increase monoton tally. 
v 
+ 

i5 fcr (i = 0; i < NLOOE; ist) | 

26 Pthread_mtex_lock (&cournter_mutex) ; 

27 val = counter; 

au printt(*td: td\n", pthread self(), val + 2}; 

29 countcr = val + 1; 

30 Ptkrsead muczex unlock(S&counter mutex!; 

31 ] 

32 return (NULL) ; 

33 | 


threads/sxample0i.c 


图 26-18 EF RR Ee AY 126-1785 CEA 
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我 们 声明 一 个 名 为 counter_mutex 的 互 斥 锁 ， 线 程 在 操纵 
counter 变 量 之 前 必须 锁 住 该 互 斥 锁 。 无 论 何 时 运行 这 个 程序 ， 其 输 
出 总 是 正确 的 : 计数 器 值 被 单调 地 递增 ， 所 显示 的 最 终 值 总 是 10000。 


使 用 互 斥 锁 上 锁 的 开销 有 多 大 了 昵 ? 把 图 26-17 和 图 26-18 中 的 程序 
改 为 循环 50000 次 ， 并 在 把 输出 定 同 到 /devAnul1 的 前 提 下 测量 时 


间 。 没 有 互 不 的 不 正确 版 本 和 使 用 互 不 锁 的 正确 版 本 之 间 的 CPU 时 间 
差别 是 10%。 这 个 结果 告诉 我 们 互 不 锁 上 锁 并 没有 太 大 开锁。 


26.8 ”条件 变量 


互 不 锁 适 合 于 防止 同时 访问 某 个 共享 变量 ， 但 是 我 们 需要 另外 某 
种 在 等 待 某 个 条 件 发 生 期 间 能 让 我 们 进入 睡眠 的 东西 。 让 我 们 凭借 一 
A BEES 点 。 我 们 回 到 26.6 节 的 Web 客 户 程序 ， 把 Solaris 的 
Po dise diee en 。 然 而 在 知道 某 个 线程 已 经 终止 之 

我 们 无 法 调用 这 个 Pthread 函 数 。 我 们 首先 声明 一 个 计量 已 终止 线 
程 数 的 全 局 变 量 ， 并 使 用 一 个 互 斥 锁 保 护 它 。 


int ndone; /* number of terminated threads */ 


pthread_mutex_tndone_mutex = PTHREAD_MUTEX_INITIALIZER; 


我 们 接着 要 求 每 个 线程 在 即将 终止 之 前 刘 慎 使 用 所 关联 的 互 不 锁 
递增 这 个 计数 器 。 
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void * 
do_get_read(void *vptr) 


Pthread mutex lock(&ndone mutex); 
ndone++; 
Pthread mutex unlock(&ndone mutex); 


return(fptr); /* terminate thread */ 


问题 是 怎样 编写 主 循环 。 主 循环 需要 一 次 义 一 次 地 锁 住 这 个 互 不 
锁 以 便 检查 是 否 有 任何 线程 终止 了 。 


while (nlefttoread > 0) { 
while (nconn < maxnconn && nlefttoconn > 0) { 
/* find a file to read */ 


/* See if one of the threads is done */ 


Pthread mutex lock(&ndone mutex); 
if (ndone > 0) { 
for (i = 0; i < nfiles; i++) { 
if (file[i].f_flags & F_DONE) { 
Pthread_join(file[i].f_tid, (void **) &fptr); 


/* update file[i] for terminated thread */ 


t 
} 


Pthread mutex unlock(&ndone mutex); 


如 此 编写 主 循环 尽管 正确 ， 却 意味 着 主 循环 永远 不 进入 睡眠 ， 它 
就 是 不 断 地 循环 ， 每 次 循环 回来 检查 一 下 ndone。 这 种 方法 称 为 轮 询 
(polling) , #44 YR CPUFȚ JE] o 


我 们 需要 一 个 让 主 循环 进入 睡眠 ， 直 到 某 个 线程 通知 它 有 事 可 做 
才 醒 来 的 方法 。 条 件 变 量 (condition variable) 结合 互 斥 锁 能 够 提供 这 
个 功能 。 互 斥 锁 提 供 互 斥 机 制 ， 条 件 变量 提供 信号 机 制 。 


按照 Pthread， 条 件 变量 是 类 型 为 pthread_cond_t 的 变量 。 以 下 
两 个 函数 使 用 条 件 变 量 。 


#include <pthread.h> 


int pthread_cond_wait(pthread_cond_t *cptr, pthread_mutex_t 
*mptr); 


int pthread cond signal(pthread cond t *cptr); 


HRE: ARINO, AEN 


为 正 的 Exxx 值 


第 二 个 函数 的 名 字 中 “signal” 一 词 并 不 指称 Unix 的 SIGxxx 信 号 。 


解释 这 些 函 数 最 容易 的 方法 是 举例 说 明 。 回 到 我 们 的 Web 客 户 程 
~ 现在 我 们 给 计数 器 ndone 同 时 关联 一 个 条 件 变 量 和 一 个 互 不 


int ndone; 
pthread_mutex_t ndone mutex = PTHREAD MUTEX INITIALIZER; 


pthread cond t ndone cond - PTHREAD COND INITIALIZER; 


ELERA EP DURS TR ERE CY | RU AS f S SALATE 
量 ， 一 个 线程 通知 主 循 环 目 身 即 将 终止 。 


Pthread mutex lock(&ndone mutex); 
ndone-c-; 

Pthread cond signal(&ndone cond); 
Pthread mutex unlock(&ndone mutex); 


主 循环 阻塞 在 pthread_cond_wait 调 用 中 ， 等 待 某 个 即将 终止 
的 线程 发 送信 号 到 与 hdone 关 联 的 条 件 变量 。 


while (nlefttoread > 0) { 
while (nconn < maxnconn && nlefttoconn > 0) { 
/* find a file to read */ 


/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone -- 0) 

Pthread cond wait(&ndone cond, &ndone mutex); 


for (i = 0; i < nfiles; i++) ( 
if (file[i].f flags & F DONE) { 
Pthread join(file[i].f tid, (void **) &fptr); 


/* update file[i] for terminated thread */ 


j 


} 


Pthread mutex unlock(&ndone mutex); 


注意 ， 主 循环 仍然 只 是 在 持 有 互 斥 锁 期 间 检 查 ndone 变 量 。 然 
后 ， 如 果 发 现 无 事 可 做 ， 那 就 调用 pthread_cond_wait。 该 函数 把 
调用 线程 投入 睡眠 并 释放 调用 线程 持 有 的 互 不 锁 。 此 外 ， 当 调用 线程 
后 来 从 pthread_cond_wait 返 回 时 (其 他 某 个 线程 发 送信 号 到 与 
ndone 关 联 的 条 件 变量 之 后 ) ， 该 线程 再 次 持 有 该 互 不 锁 。 


为 什么 每 个 条 件 变量 都 要 关联 一 个 互 不 锁 呢 ?因为 “条 件 ” 通 第 十 
线程 之 间 共 至 的 某 个 变量 的 值 。 人 允许 不 同 线程 设置 和 测试 该 变量 要 求 
有 一 个 与 该 变量 关联 的 互 不 锁 。 举 例 来 说 ， 要 是 刚才 给 出 的 例子 代码 
中 我 们 没 用 互 不 锁 ， 那 么 主人 循环 将 如 下 测试 变量 ndone 。 


703 


/* Wait for one of the threads to terminate */ 
while (ndone == 0) 


Pthread cond wait(&ndone cond, &ndone mutex); 


这 里 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主 循环 测试 
ndone==0 之 后 但 在 调用 pthread_cond_wait 之 前 递增 ndone。 如 
果 发 生 这 样 的 情形 ， 最 后 那个 “信和 号 * 束 丢失 了 ， 造 成 主 循环 永远 阻塞 
在 pthread_cond_wait 调 用 中 ， 等 待 永远 不 再 发 生 的 某 事 再 次 出 
现 。 


同样 的 理由 要 求 pthread_cond_wait 被 调用 时 其 所 关联 的 互 斥 
锁 必 须 是 上 锁 的 ， 该 函数 作为 单个 原子 操作 解锁 该 互 斥 锁 并 把 调用 线 
程 投入 睡眠 也 是 出 于 这 个 理由 。 要 是 该 函数 不 先 解 锁 该 互 斥 锁 ， 到 返 
回 时 再 给 它 上 锁 ， 调 用 线程 就 不 得 不 事先 解锁 事后 上 锁 该 互 斥 锁 ， 测 
试 变量 ndone 的 代码 将 变 为 : 


/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone == 0) { 
Pthread_mutex_unlock(&ndone_mutex) ; 
Pthread cond wait(&ndone cond, &ndone mutex); 
Pthread mutex lock(&ndone mutext); 


j 


然而 这 里 再 次 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主线 程 
调用 pthread_mutex_unlock 和 pthread_cond_wait 之 间 终 止 并 
递增 ndone 的 值 。 


pthread_cond_signal 通 常 唤醒 等 在 相应 条 件 变 量 上 的 单个 线 
程 。 有 时 候 一 个 线程 知道 自己 应 该 唤醒 多 个 线程 ， 这 种 情况 下 它 可 以 
调用 pthread_cond_broadcast 唤 醒 等 在 相应 条 件 变 量 上 的 所 有 线 
程 。 


#include <pthread.h> 


int pthread_cond_broadcast(pthread_cond_t *cptr); 


int pthread_cond_timedwait(pthread_cond_t *cptr, pthread_mutex_t 


*mptr, 
const struct timespec *abstime); 


HRE: ERDO, X 


错 则 为 正 的 Exxx 值 


pthread_cond_timedwait 人 允许 线程 设置 一 个 阻塞 时 间 的 限 
制 。 abstime 是 一 个 timespec 结构 (我 们 已 在 6.9 节 随 pselect 函 数 定 
义 过 该 结构 ) ， 指 定 该 函数 必须 返回 时 刻 的 系统 时 间 ， 即 使 到 时 候 相 
应 条 件 变量 尚未 收 到 信号 。 如 果 发 生 这 样 的 超时 ， 那 就 返回 ETIME 错 


误 。 


个 时 间 值 是 一 个 绝对 时 间 (absolute time) ， 而 不 是 一 个 时 间 增 
量 delta) 。 也 就 是 说 qbstime 参 数 是 画 数 应 该 返回 时 刻 的 系统 时 
间 一 一 从 UTC 了 时间 以 来 的 秒 数 和 纳 秒 数 。 这 一 点 不 同 于 select 和 
pselect， 它 们 指定 的 是 从 调用 时 刻 开 始 到 函数 应 该 返回 时 刻 的 秒 数 
和 微 秒 数 (对 于 pselect 为 纳 秒 数 ) 。 通 常 采 用 的 过 程 是: 调用 
gettimeofday 获 取 当 前 时 间 (作为 一 个 timeval 结 构 ) ， 把 它 复 制 
到 一 个 timespec 结 构 中 ， 再 加 上 期 望 的 时 间 限 制 。 例 如 ; 
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struct timeval tv; 
struct timespec ts; 


if (gettimeofday(&tv, NULL) < ©) 

err_sys("gettimeofday error"); 
ts.tv_sec = tv.tv_sec + 5; /* 5 seconds in future */ 
ts.tv_nsec = tv.tv_usec * 1000; /* microsec to nanosec */ 


pthread_cond_timedwait( ... , &ts); 


使 用 绝对 时 间 取代 增 量 NAR, WR Ae Se] (可 
能 是 因为 捕获 了 某 个 信号 ) ， 那 么 不 必 改 动 timespec 结 构 参 数 的 内 
容 束 可 以 再 次 调用 该 函数 ， 缺 点 是 首次 调用 该 男 数 之 前 不 得 不 调用 
gettimeofday ° 


POSIX 规 范 定 义 了 一 个 名 为 clock_gettime 的 函数 ， 它 把 当前 
时 间 返 回 为 一 个 timespec 结 构 。 


26.9 Web 客户 与 同时 连接 (5) 


我 们 现在 重新 编写 26.6 丰 的 Web 客 户 程序 ， 把 其 中 对 于 Solaris 之 
thr_join 画 数 的 调用 替换 成 调用 pthread_join。 正 如 那 节 所 述 ， 
这 么 一 来 我 们 必须 明确 指定 等 待 哪 一 个 线程 。 为 了 做 到 这 一 点 ， 我 们 
就 像 26.8 广 讲解 的 那样 使 用 条 件 变 量 。 


全 局 变量 (图 26-13) 的 唯一 变动 是 增加 一 个 痢 标 志和 一 个 条 件 变 


= 
里 


#define F_JOINED /* main has pthread_join'ed */ 


int ndone; /* number of terminated 
threads */ 

pthread_mutex_t ndone_mutex = PTHREAD MUTEX INITIALIZER; 
pthread cond t ndone cond = PTHREAD COND INITIALIZER; 


do get readENZ& (图 26-15) 的 唯一 变动 是 在 本 线程 终止 之 前 
递增 ndone 并 通知 主 循环 。 


printf("end-of-file on %s\n", fptr->f_name); 
Close(fd); 


Pthread mutex lock(&ndone mutex); 

fptr->f flags = F DONE; /* clears F READING */ 
ndone++; 

Pthread cond signal(&ndone cond); 

Pthread mutex unlock(&ndone mutex); 


return(fptr); /* terminate thread */ 


eee (图 26-14) ， 图 26-19 给 出 主 循环 的 
LS o 
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threads‘web03.c 


42 while (nlefttoread > 0) [ 

a4 whila (nconn < waxnconn &« niefttocom > o! ( 

as /* tind a tile to read */ 

46 for (i - 0; i s nfiles; i++} 

43 if (filefii.? flags == ñ) 

ig break; 

49 if (i == nfiles) 

56 err quit('nlefttoconn = $d but nothing found", rlefttcconn): 
51 Ezle[i].z zlage = F CONNECTING; 

52 Pthread_create [Stid, NULL, &do gest read, &tfileli `); 
53 f-le(il.? tid = tid; 

54 TOON +} 

55 nuetttoconn--; 

56 } 

57 /* Wait for thrsad to terminate */ 

SE Fthreag wutex lock |Sndone mutex); 

59 while (ndone == 0) 

60 Ethreed con wait (eidem cond, andone mace) : 

$1 for (i = 0; i < nfilec; iri) Í 

62 if 'filefil.£ flags & F DONE) { 

63 Pthread join(E-le([:).£ cid, (void **) afptr): 
64 if {afile[i] != fstr) 

65 err quit("fils[i] != pur"); 

56 fp-r-»f ?*lags = F JOINED;  /* clears F LONE */ 
67 ndcne- -; 

56 nconn- -; 

69 nmefttoread--; 

70 printf ("thread td for ts done\n*, fptr--7 cid, fpcr-»f name!; 
71 } 

72 } 

73 Fthread mutex url2ck[&Anüdone nmutex]; 

4a } 

75 exit (0); 

76 ) 


fires ne b.c 


图 26-19 ”main 画 数 的 主 处 理 循环 
若 可 能 则 创建 男 一 个 线程 
44-56 ”这 段 代码 没有 变动 。 
等 待 任何 一 个 线程 终止 
57-60 为 了 等 待 某 个 线程 终止 ， 我 们 等 待 ndone 变 为 非 0。 正 如 


26.8 廊 所 述 ， 这 个 测试 必须 在 锁 住所 关联 互 不 锁 期 间 进 行 。 睡 眠 由 
pthread_cond_wait 执 行 。 


处 理 终止 的 线程 


61-73 ” 当 发 现 某 个 线程 终止 时 ， 我 们 遍历 所 有 file 结 构 找 出 这 
个 线程 ， 再 调用 pthread_join， 然 后 设置 新 的 FE_JOINED 标 志 。 


TM 
(op) 


0 


我 们 已 在 图 16-20 中 与 使 用 非 阻 塞 connect 的 Web 客 户 程序 版 本 一 
道 给 出 了 本 版 本 的 时 间 性 能 。 


26.10 ”小 结 


创建 一 个 新 线程 通常 比 使 用 fork 派 生 一 个 新 进程 快 得 多 。 仅 仅 这 
一 把 束 能 够 体现 线程 在 繁重 使 用 的 网 络 服务 器 上 的 优势 。 然 而 线程 编 
程 是 一 个 新 的 编程 范式 ， 需 要 有 所 训练 。 


同一 进程 内 的 所 有 线程 共 译 全 局 变量 和 描述 符 ， 从 而 允许 不 同 线 
程 之 间 共 至 这 些 信息 。 然 而 这 种 共 至 却 引 入 了 同步 问题 ， 我 们 必须 使 
用 的 Pthread 同 步 原 语 是 互 不 锁 和 条 件 变 量 。 共 至 数据 的 同步 几乎 是 每 
个 线程 化 应 用 程序 必 不 可 少 的 部 分 。 


编写 能 够 被 线程 化 应 用 程序 调用 的 函数 时 ， 这 些 函 数 必须 做 到 线 
程 安 全 。 有 助 于 做 到 这 一 点 的 一 个 技巧 是 线程 特定 数据 ， 我 们 通过 改 
写 readline 函 数 展示 了 这 样 的 一 个 例子 。 


我 们 将 在 第 30 革 中 重新 回 到 线程 模型 ， 讨 论 男 外 一 个 服务 如 程序 
设计 范式 : 服务 器 在 局 动 时 创建 一 个 线程 池 ， 下 一 个 客户 请 求 束 由 该 
TP Fe NA) A GBR AER o 


习题 


26.1 假设 同时 服务 100 个 客户 ， 比 较 使 用 fork 的 一 个 服务 右 和 
使 用 线程 的 一 个 服务 器 所 用 的 描述 符 量 。 


26.2 ”图 26-3 中 如 果 线 程 在 str _echo 返 回 之 后 不 关闭 各 自 的 已 连 
接 套 接 字 ， 将 会 发 生 什 么 ? 


26.3 ”在 图 5-5 和 图 6-13 中 ， 当期 竺 服务 器 回 射 某 个 文本 行 而 收 到 
的 却 是 EOF 时 ， 客 户 就 显示 “server terminated prematurely (服务 器 过 早 
终止 ) ”( 回 顾 5.12 节 ) 。 把 图 26-2 改 为 也 在 合适 的 时 候 显 示 这 条 消 
El o 


ay; 


26.4 ”把 图 26-11 和 图 26-12 改 为 能 够 在 不 支持 线程 的 系统 上 编译 通 


过 


26.5 为 了 观察 图 3-18 的 readline 函 数 版 本 用 于 图 26-3 的 线程 化 
程序 时 表现 出 来 的 错误 ， 构 造 这 个 TCP 回 射 服务 器 程序 并 启动 运行 。 
然后 构造 能 够 以 批量 方式 正确 工作 的 来 自 图 6-13 的 TCP 回 射 客 户 程 
序 。 在 自己 的 系统 上 找到 一 个 见长 的 文本 文件 ， 在 批量 方式 下 启动 运 
行 客户 3 次 ， 让 它们 从 这 个 文本 文件 中 读 且 把 输出 写 到 各 自 的 临时 文件 
中 。 要 是 可 能 ， 在 不 同 于 服务 器 所 在 主机 的 另 一 个 主机 上 运行 这 些 客 
户 。 如 果 这 些 客户 正确 地 终止 (它们 往往 挂 起 ) ， 那 就 查看 它们 的 临 
时 输出 文件 ， 并 和 输入 文件 进行 比较 。 


现在 构造 一 个 使 用 来 自 26.5 节 的 readline 函 数 线 程 安全 版 本 的 
TCP 回 射 服务 器 程序 。 重 新 以 3 个 客户 运行 上 述 测试 ;这 回 它们 都 应 该 
工作 。 你 还 应 该 分 别 在 readline_destructor 碎 数 和 
readline_once 函 数 中 以 及 readline 中 的 malloc 调 用 8 处 放置 一 
个 printf。 由 它们 的 输出 可 以 证 实 键 只 被 某 个 线程 一 次 性 地 创建 ， 
但 是 每 个 线程 都 各 自分 配 了 内 存 空间 并 调用 了 析 构 函数 。 
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@ 本 段 文 字 第 3 版 和 第 2 版 出 入 较 大 。 第 2 版 中 Stevens 先 生 详细 介绍 了 最 
终 发 现 图 3-18 (在 第 2 版 中 为 图 3-17， 另 外 图 3-17 在 第 2 版 中 为 图 3-16) 
中 的 readline 函 数 版 本 存在 因 使 用 静态 变量 而 引起 所 壕 编程 错误 的 
整个 过 程 ， 确 实 略 显 风 长， 不 过 第 3 版 的 新 作者 们 未 能 较 好 地 概括 
Stevens 先 生 的 这 上段 话 ， 读 者 看 到 稍 后 突然 冒 出 readline 和 图 3-18 会 
莫名 其 妙 ， 译 者 因此 根据 自己 的 理解 概括 了 这 上 段 话 。 注 意 ， 第 2 版 图 3- 
17 中 的 3 个 静态 变量 是 my_read 函 数 的 局 部 变量 ， 第 3 版 中 图 3-18 因 引 
入 一 个 从 未 用 到 过 的 readlinebuf 函 数 而 把 这 3 个 静态 变量 改 成 了 全 
局 变量 ， 如 此 改动 并 不 影响 这 里 的 讨论 ， 只 是 直接 使 用 静态 变量 的 画 
数 由 1 个 变 成 了 2 个 (有 一 个 从 未 被 调用 过 ) 。 一 一 译 者 注 


@ 作 者 (Stevens) 曾 在 Usenet 上 抱怨 pthread_join 不 能 等 竺 任 一 线程 终 
止 ， 一 些 参与 过 Pthread 标 准 工 作 的 人 员 为 这 个 设计 决策 辩解 说 ， 
pthread_join 不 可 能 每 个 人 想 怎么 样 就 怎么 样 。 他 们 还 辩解 说 ， 在 进程 
模型 中 存在 父子 关系 ， 因 此 wait 或 waitpid 具 备 等 竺 任 一 子 进 程 的 能 力 
是 有 意义 的 。 然 而 在 线程 环境 中 却 不 存在 类 似 父 与 子 的 层次 关系 ， 
而 等 待 任 一 线程 终止 并 没有 意义 。 其 状态 由 某 个 等 竺 任 一 线程 终止 之 
类 函数 返回 的 线程 不 一 定 是 由 调用 线程 创建 的 。 他 们 补充 说 ， 如 果 有 
人 真 地 需要 等 待 任 一 线程 ， 那 也 可 以 使 用 条 件 变量 实现 之 (并 不 简 
单 ) ， 束 如 我 们 稍 后 给 出 的 那样 。 无 论 他 们 如 何 争 辨 ， 作 者 依然 认为 
pthread_join 的 设计 存在 瑕 疲 。 


@ 第 3 版 新 作者 在 图 26-12 中 改 用 calloc 调 用 ， 只 是 为 了 用 上 calloc 
可 能 影响 效率 的 初始 化 特性 。 一 一 译 者 注 


第 27 章 IPI 


27.1 概述 


IPv4 人 允许 在 20 字 广 首 部 固定 部 分 之 后 跟 以 最 多 共 40 个 字 节 的 选 
项 。 尽 管 已 经 定义 的 IPv4 选 项 共有 10 种 ， 最 常用 的 却 是 源 路 径 选 项 。 
这 些 选 项 的 访问 途径 是 存 取 IP_0PTIONS 套 接 字 选 项 ， 我 们 将 以 一 个 
使 用 源 路 由 的 例子 展示 这 个 访问 方式 。 


IPv6 人 允许 在 固定 长 度 的 40 字 节 IPv6 首 部 和 传输 层 首部 (例如 
ICMPv6、TCP 或 UDP) 之 间 出 现 扩展 首部 (extension header) ° HAI 
定义 了 6 种 不 同 的 扩展 首部 。 不 同 于 IPv4 的 是 ，IPv6 扩 展 首 部 的 访问 途 
= 而 不 是 强求 用 户 理解 这 些 首 部 如 何 呈 现在 IPv6 分 组 中 
真实 细节 e 


27.2 ”TITPv4 选 项 


我 们 在 图 A-1 中 展示 出 IPv4 的 选项 (options) SEEXERTE20E D IPv4 
首部 固定 部 分 之 后 。 我 们 在 A.2 节 指出 ，4 位 的 首部 长 度 字 段 把 IPv4 首 
部 的 总 长 度 限 制 为 15 个 32 位 字 (60 字 节 ) ， 因 此 IPv4 选 项 字段 最 长 为 
40 FB. ° IPvASE X. f 1081 [E] B) 32629] o 


(1) NOP: no-operation。 单 字 节 选项 ， 典 型 用 途 是 为 某 个 后 续 选 项 
落 在 4 字 节 边界 上 提供 填充 。 


(2) EOL: end-of-list。 单 字 节 选项 ， 终 止 选项 的 处 理 。 既 然 各 个 了 
选项 的 总 长 度 必须 为 4 字 节 的 倍数 ， 因 此 最 后 一 个 有 效 选 项 之 后 可 能 跟 
以 0 一 3 个 EOL 字 节 。 
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(3) LSRR: loose source and record route (TCPv1858.5 8) 。 我 们 
稍 后 给 出 使 用 本 选项 的 一 个 例子 。 


(4) SSRR: strict source and record route (TCPv1838.53) : 我 们 
稍 后 给 出 使 用 本 选项 的 一 个 例子 。 


(5) Timestamp (TCPvV1 的 7.4 节 ) 
(6) Record route (TCPv1 的 7.3 节 ) 
(7) Basic security (已 作废 ) 

(8) Extended security (已 作废 ) 
(9) Stream identifier (已 作废 ) 


(10) Router alert。 这 是 在 RFC 2113 [Katz 1997] 中 叙述 的 一 种 选 
项 。 包 含 该 选项 的 IP 数 据 报 要 求 所 有 转发 路 由 右 都 查看 其 内 容 。 


TCPv2 第 9 章 提 供 了 关于 内 核 如 何 处 理 前 6 种 选项 的 具体 细节 ， 上 
面 指 出 的 TCPv1 相 关 章 市 给 出 了 如 何 使 用 它们 的 例子 。RFC 1108 


a 1991] 给 出 了 关于 那 2 种 安全 选项 的 细节 ， 它 们 未 得 到 广泛 使 


读 取 和 设置 IP 选 项 字段 使 用 getsockopt 和 setsockopt (level 
参数 为 ITPPROTO_IP，optname 参 数 为 ITP_OPTIONS) 。 这 两 个 函数 的 
第 四 个 参数 是 指向 某 个 缓冲 区 (其 大 小 小 于 等 于 44 字 方 ) 的 一 个 指 
针 ， 第 五 个 参数 是 该 缓冲 区 的 大 小 。 该 缓冲 区 的 大 小 之 所 以 可 以 比 选 
项 字段 的 最 大 长 度 多 出 4 个 字 节 是 由 源 路 径 选 项 的 处 理 方式 使 然 ， 我 们 
稍 后 就 会 讲解 到 。 除 了 两 种 源 路 径 选 项 外 ， 其 他 选项 在 该 缓冲 区 中 的 
格式 就 是 把 它们 置 于 IP 数 据 报 中 的 格式 。 


使 用 setsockopt 设 置 IP 选 项 之 后 ， 在 相应 套 接 字 上 发 送 的 所 有 
IP 数 据 报 都 将 包括 这 些 选项 。 可 以 在 其 上 设置 了 选项 的 套 接 字 包 括 
TCP、UDP 和 原始 IP 套 接 字 。 清 除 这 些 选项 同样 使 用 setsockopt， 
A 和 针 ， 也 可 把 第 五 个 参数 KE) $8 
定 为 0。 


对 于 已 经 设置 了 IP_HDRINCL 套 接 字 选项 (我 们 将 在 下 一 章 中 讲 
解 该 选项 ) 的 一 个 原始 IP 套 接 字 ， 并 非 所 有 实现 都 支持 再 为 它 设置 IP 
选项 。 许 多 源 自 Berkeley 的 实现 在 IP_HDRINCL 选 项 开启 时 不 发 送 使 
用 IP_0PTIONS 设 置 的 IP 选 项 ， 因 为 应 用 进程 可 能 在 它 构造 的 卫 首 部 
中 设置 了 它 自己 的 IP 选 项 〈TCPv2 第 1056~1057 行 ) 。 其 他 系统 〈 例 
如 FreeBSD) 人 允许 应 用 进程 或 者 使 用 IP_0PTIONS 套 接 字 选项 设置 IP 
选项 ， 或 者 通过 开启 IP_HDRINCL 并 在 自己 构造 的 IP 首 部 中 包括 了 PP 选 
项 达到 设置 目的 ， 不 过 不 能 混合 使 用 这 两 种 方式 。 


当 调用 getsockopt 获 取 由 accept 创 建 的 某 个 已 连接 TCP 套 接 字 
的 卫 选 项 时 ， 返 回 的 是 在 相应 监听 套 接 字 上 收 到 的 客户 SYN 分 和 所 在 
IP 数 据 报 中 可 能 出 现 的 源 路 径 选 项 的 逆转 〈TCPv2 第 931 页 ) 。 源 路 径 
被 TCP 上 自动 逆转 顺序 ， 因 为 由 客户 指定 的 是 从 客户 到 服务 器 的 源 路 
径 ， 服 务 器 却 需要 在 发 送 到 客户 的 数据 报 中 使 用 该 路 径 的 逆转 。 如 果 
没有 源 路 径 伴随 SYN 分 节 ， 那 么 由 getsockopt 通 过 第 五 个 参数 返回 
的 “ 值 一 结果 "长度 为 0。 对 于 所 有 其 他 TCP 套 接 字 及 所 有 UDP 套 接 字 和 
原始 IP 套 接 字 而 言 ， 调 用 getsockopt 获 取 卫 选项 返回 的 仅仅 是 以 前 
对 于 同一 个 套 接 字 调用 setsockopt 设 置 的 IP 选 项 的 一 个 副本 。 注 意 
对 于 一 个 原始 IP 套 接 字 ， 和 输入 函数 总 是 返回 包括 任何 了 选项 在 内 的 接 


收 IP 首 部 (也 就 是 到 达 IP 首 部 ) ， 因 此 接收 IP 选 项 (也 就 是 到 达 IP 选 
项 ) 也 总 是 可 得 的 。 
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i El Berkeley A429 MRA AUDPE RFA [n] ATCA ER E 
项 或 其 他 任何 IP 选 项 。TCPVv2 第 775 页 所 示 的 返回 IP 选 项 的 的 代码 从 
BSD4.3 Reno 以 来 一 直 存 在 ， 不 过 因为 不 起 作用 而 总 是 被 注释 挥 。 这 
eg ore nrg eon eee 中 使 用 接收 路 径 


27.3 ”IPv4 源 路 径 选 项 


源 路 径 (source route) 是 由 IP 数 据 报 的 发 送 者 指定 的 一 个 JP 地址 
列表 。 如 果 源 路 径 是 严格 的 (strict) ， 那 么 数据 报 必 须 且 只 能 逐一 经 
过 所 列 的 节点 。 也 就 是 说 列 在 源 路 人 径 中 的 所 有 市 点 必 须 前 后 互 为 邻 
居 。 如 果 源 路 径 是 宽松 的 (loose) ， 那 么 数据 报 必须 逐一 经 过 所 列 的 
PAR, Ata] b RB mI S e 


IPV4 的 源 路 由 是 有 和 争议 的 。 尺 管 它 可 能 对 网 络 排 障 非常 有 用 ， 却 
也 可 能 被 用 于 “ 源 地 址 欺骗 ”等 攻击 之 中 。 [Cheswick, Bellovin, and 
Rubin 2003] 倡议 在 所 有 路 由 器 上 禁用 该 特性 ， 许 多 组 织 机 构 和 服务 
提供 商 也 这 么 做 了 。 源 路 由 的 合理 用 途 之 一 是 使 用 traceroute 程 序 
级 测 非 对 称 的 路 径 ， 就 像 TCPv1 第 108 一 109 页 展示 的 那样 ， 然 而 随 着 
因特网 上 有 越 来 越 多 的 路 由 器 禁用 源 路 由 ， 这 个 用 途 也 将 消失 。 不 过 
ae 因而 仍然 需要 
WHE e 


IPv4 源 路 径 称 为 源 和 记录 路 径 (source and record routes, SRR, 
其 中 LSRR 表 示 宽 松 的 选项 ，SSRR 表 示 严 格 的 选项 ， 因 为 随 着 数据 
报 逐 一 经 过 所 列 的 节点 ， 每 个 节点 都 把 列 在 源 路 径 中 的 目 己 的 地 址 蔡 
换 为 外 出 接口 的 地 址 。SRR 人 允许 接收 者 逆转 新 的 列表 的 顺序 ， 得 到 沿 
相反 方向 回 到 发 送 者 的 路 径 。TCPv1 的 8.5 节 给 出 了 LSRR 和 SSRR 这 两 
种 源 路 径 的 例子 以 及 相应 的 tcpdump 输 出 。 


我 们 把 源 路 径 指定 为 一 个 IPv4 地 址 数组 ， 并 冠 以 3 个 单字 节 字 段 ， 
如 图 27-1 所 示 。 这 就 是 我 们 传递 给 setsockopt 的 缓冲 区 的 格式 。 
ka 一 一 一 Wer 


CIICIEIET RENE [| we 
l 1 I l 4:7 yt 


47% +r ù 


图 27-1 ”向 内 核 传递 的 源 路 径 
我 们 在 源 路 径 选 项 之 前 放置 一 个 NOP 选 项 ， 使 得 所 有 了 地 址 在 各 


目的 4 字 节 边界 对 齐 。 这 么 做 并 非 必 须 ， 不 过 无 须 占用 额外 空间 CIP 
项 总 是 填充 成 4 字 节 的 倍数 ) ， 还 对 齐 了 地 址 。 
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我 们 在 图 中 展示 的 源 路 径 最 多 有 10 个 IP 地 址 ， 不 过 所 列 的 第 一 个 

地 址 将 在 相应 套 接 字 的 每 个 外 出 IP 数 据 报 即 将 离开 源 主机 之 际 被 移出 

源 路 径 选 项 ， 并 成 为 IP 数 据 报 的 目的 地 址 。 尽 管 40 字 下 的 卫 选 项 空间 

( 别 忘 了 我 们 马上 讲解 的 3 字 市 选项 首部 所 占 空间 ) 只 能 存放 9 个 IP 地 

ia 目的 地 址 字段 也 包括 在 内 ， 那 么 IPv4 首 部 中 实际 上 有 10 个 
IP o 


code Et] FLSRRAOx83, X FSSRRHOxX89 » lenf Ez Hi T 18 
定 选 项 的 字 节 长 度 ， 包 括 3 字 节选 项 首部 和 处 于 末尾 的 额外 的 最 终 目的 
地 址 (该 地 址 不 属于 源 路 径 ) 。 对 于 由 1 个 IP 地 址 构成 的 源 路 径 len 为 
11， 对 于 由 2 个 IP 地 址 构成 的 源 路 径 len 为 15， 以 此 类 推 ， 直 到 由 9 个 IP 
地 址 构成 的 源 路 径 jem 为 最 大 值 43。NOP 不 属于 本 SSR 选 项 ( 它 自 成 一 
个 单字 节 IP 选 项 ) ， 因 而 不 包括 在 len 字段 的 涵盖 范围 之 内 ， 不 过 包括 
在 给 setsockopt 指 定 的 缓冲 区 大 小 之 中 。 当 源 路 径 地 址 列表 中 的 第 
一 个 地 址 被 移 走 并 置 于 IP 首 部 的 目的 地 址 字段 时 ， 这 个 len 值 被 减 去 4 
(TCPV2 图 9-32 和 图 9-33) 。ptr 是 一 个 指针 ， 也 就 是 路 径 中 下 一 个 待 
处 理 IP 地 址 的 偏 移 量 ， 初 始 值 为 4， 表 示 指 向 第 一 个 卫 地 址 。 该 字段 的 
值 随 着 IP 数 据 报 被 每 个 所 列 和 点 处 理 而 逐次 加 上 4。 


我 们 现在 开发 3 个 函数 ， 分 别 初 始 化 、 创 建 和 处 理 一 个 源 路 径 选 
项 。 这 些 函 数 只 处 理 源 路 径 IP 选 项。 尽管 源 路 径 结合 其 他 卫 选 项 〈 例 
如 路 由 器 警告 ) 也 是 可 能 的 ， 但 这 样 的 组 合 很 少 使 用 。 图 27-2 是 第 一 
个 函数 jnet_srcrt_init 以 及 用 于 构造 选项 内 容 的 一 些 静 态 变 量 。 


- ipoptsisourcerouite.c 
1 #include *urp.h" 


2 #include <netinst/in_systm.h> 

3 #include <netinst/is.h> 

4 gzatic u_char *optr; /* pointer into options being formed */ 

5 ezvatic u char *lenptr; /* pointer to length byte in SHR option */ 
6 static irt onz; /* count Cf # addressee */ 


7 u char * 


8 inet srcrt in--/int typs! 

SA 

10 otr = Mallocíd44); /* NOP, ccds, len, ptr, up tc 10 addresses à; 
31 bzerotoptr, 44): /* guarantees EOLA at end af 
12 cnt = 0; 

13 *cptre« = TPOPT NOP; /* NOP for alignment */ 

14 *cptre* = type ? -EOFT S3BR ; [EOPT_LSRR; 

15 lenptr = optr++; /* we fill in length later */ 
16 *cpre* = 4; /* offset to Eirs= address */ 
1? return!opzr - 45; /* pointer for sezsockopti) */ 
18 : 


ipopis/soereerotde.c 


图 27-2 inet srcrt init Ht: 为 构建 一 个 源 路 径 进行 初始 化 


初始 化 


10-17 分 配 一 个 最 大 长 度 (MFT) 的 缓冲 区 并 将 它 清 零 。 
EOL 选 项 的 值 为 0， 因 此 清 零 操作 把 整个 选项 缓冲 区 初始 化 为 EOL 字 
季 。 接 着 按照 图 27-1 设 置 源 路 径 选 项 首部 ， 包 括 用 于 对 齐 的 NOP、 源 
路 径 类 型 (LSRREXSSRR) 、 长 度 和 指针 。 保 存 指向 len 字 段 的 一 个 指 
针 ， 以 后 每 往 地 址 列表 中 加 入 一 个 地 址 ， 就 在 该 字段 中 存 入 新 值 。 把 
指向 选项 缓冲 区 的 指针 返回 给 调用 者 ， 以 便 作为 第 四 个 参数 传递 给 


setsockopt ° 


下 一 个 函数 inet_srcrt_add (427-3) 把 一 个 IPv4 地 址 加 到 正 
在 构建 的 源 路 径 上 。 


ipopts/sourcerante.c 


19 ant 

20 :net srcrt add(char *hostptr! 

z2 int ler: 

23 etruct addrirfo *ai, 

24 struct sockacdr in *s:n; 

I iE (ocnt ~ 9) 

26 err quit("toc many source rcuzes with: e", nostptr): 
27 al = Host .serv (ho stptr, NULL, AP INET, 3); 

28 sin = (struct sockaddr in *) #i->ai  addr; 

29 mencpy (ap-r, &sir-»sin addr, sizenf(scract in | adir); 
an fremad inferlai) 3 

3: oztr += sizeofistruct in addr): 

i2 oznt!t:; 

33 len = 3 + locnt * sizeof(struct in addr!); 

34 *lenpzr = ler: 

35 raturnilen + 1): /* size fox setsccxopt() */ 
36 + 


ipopts/sovrcerotde.c 


图 27-3 inet srcrt addEÉNZ&: 向 源 路 径 加 入 一 个 IPv4 地 址 


参数 
19-20 参数 指向 一 个 主机 名 或 一 个 点 分 十 进 制 数 串 IP 地 址 。 
检查 溢出 


25-26 我 们 检查 尚未 指定 过 多 的 地 址 ， 如 有 果 这 有 十 第 一 个 地 址 则 
将 其 初始 化 。 


取得 二 进 制 IP 地 址 并 存 入 路 径 


27-35 调用 我 们 的 host_serv 画 数 转换 主机 名 或 点 分 十 进 制 数 
串 ， 并 把 最 终 的 二 进 制 地 址 存 入 路 径 地 址 列表 。 更 改 len 字 有 段 的 值 ， 返 
回 缓冲 区 的 总 长 度 (包括 NOP) ， 以 便 调用 者 把 它 作为 第 五 个 参数 伟 


xb?dsetsockopt ° 
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通过 getsockopt 调 用 返回 给 应 用 进程 的 接收 源 路 径 格式 不 同 于 
图 27-1 所 示 的 发 送 源 路 径 。 图 27-4 展 示 了 接收 格式 。 


DESEE EN 


pit Hrs 


目 第 IP 地 址 


* 44575 
4TT I l | l 47 Ë 4T 
图 27-4 getsockopt 返 回 的 源 路 径 选 项 格式 


首先 ， 地 址 的 顺序 是 所 收取 的 源 路 径 被 内 核 逆 转 后 的 顺序 。 这 
里 “逆转 ” 指 的 是 如 果 所 收取 的 源 路 径 按 顺 序 包括 A、B、C 和 DD 四 个 地 
址 ， 该 路 径 的 逆转 顺序 就 是 D、C、B 和 A。 头 4 个 字 节 是 该 列表 的 第 一 
个 IP 地 址 ， 后 跟 一 个 单字 广 NOP (AT ST) ， 再 跟 以 3 字 节 源 路 径 选 
项 首部 ， 最 后 跟 以 其 余 的 IP 地 址 。3 字 节选 项 首部 之 后 最 多 可 跟 以 9 个 
IP 地 址 ， 所 返回 首部 中 jen 字 段 相 应 的 最 大 值 为 9。NOP 始 终 存在 ， 
此 由 getsockopt 返 回 的 长 度 于 是 总 为 4 字 节 的 倍数 。 


图 27-4 所 示 的 格式 在 <netinet/ip_var.h> 头 文件 中 定义 为 如 
下 结构 : 


qi ay 


#define MAX_IPOPTLEN 40 


struct ipoption{ 
struct in_addr ipopt_dst; /* first_hop dst if source routed 


*/ 
char ipopt list[MAX IPOPTLEN];  /* options proper*/ 


在 图 27-5 中 ， 我 们 发 现 目 行 分 析 数 据 同样 容易 ， 于 是 没 有 使 用 这 


个 结构 。 


ipoots/sourceraute.c 


37 void 

36 inet_srert_print(u_cher *ptr, int len! 
39 | 

10 u chsr c; 

il char str[INET_ADDRSTRLES] ; 

42 struct :r_adadr hopl; 


3 memcpy (&hosl, ptr, cizcor(struct in addr);; 
44 ptr += Bizeof struct in addr); 


4t while ( (c = *ptr++) -= [PORT NOP) ; /* skip any leading Nope */ 
a6 i= (c == IPOVT LSRR) 

47 crin-f ("receives LSRR: "); 

4E else if (c == IPOPT SSREK) 

49 grintf ("receives SSRR: "); 

so else [ 

51 prin-f('"receiveid aprio type &jWn*, c); 

52 return; 

AS 

84 p-intf£(*$s *, Tnet ntopi(AF IMRT, &hopl, etr, sizeafistr))); 

85 len a *plre- - sizen^ist racb in adir): /* suht-act Gest TP addr */ 
56 ptre*; /* skip over pointer */ 

51 while (sn > 0) [ 

5 printf ("%s ', Inet_ntep(AF_INET, ptr, str, sizeof(str))); 

9 ptr += sizeofistruct in_addr); 

60 len -= sizeofistruct in_addr); 

51 


printt(*\n") ; 


ipopts/sourceronte.c 


图 27-5 inet srcrt printERZX. 显示 一 个 接收 源 路 径 


这 个 返回 的 格式 不 同 于 我 们 传递 给 setsockopt 的 格式 。 如 果 想 
要 把 图 27-4 中 的 格式 转换 到 图 27-1 中 的 格式 ， 我 们 就 必须 对 换 头 4 个 字 
闻 和 随后 的 4 个 字 节 ， 再 给 len 字 段 加 上 4。 所 到 的 是 我 们 并 非 必 须 这 人 么 
做 ， 因 为 源 自 Berkeley 的 实现 对 于 TCP 套 接 字 自动 使 用 来 自 SYN 所 在 了 P 
数据 报 的 接收 源 路 径 的 逆转 。 换 名 话说， 图 27-4 展 示 的 由 
getsockopt 返 回 的 源 路 径 信息 纯粹 用 于 了 解 目 的 。 我 们 不 必 调 用 
setsockopt 告 诉 内 核 使 用 该 路 径 发 送 相应 TCP 连 接 上 的 外 出 卫 数 据 
报 ， 内 核 自 动 这 么 做 了 。 我 们 稍 后 随 TCP 回 射 服务 器 程序 的 修改 查看 
这 样 的 一 个 例子 。 


下 一 个 源 路 径 函 数 取 得 图 27-4 所 示 格 式 的 一 个 接收 源 路 径 并 显示 
该 信息 。 图 27-5 给 出 了 这 个 名 为 inet_srcrt_print 的 函数 。 


保存 第 一 个 IP 地 址 并 跳 过 任何 NOP 
43-45 ”保存 缓冲 区 中 的 第 一 个 IP 地 址 ， 跳 过 后 跟 的 任何 NOP 。 
检查 源 路 径 选 项 


46-62 我 们 只 显示 源 路 径 信 息 ， 从 3 字 节 首部 中 ， 我 们 检查 
code， 取 出 len， 并 跳 过 ptr。 我 们 接着 显示 跟 在 3 字 广 首部 之 后 的 所 有 
IP 地 址 ， 不 过 末尾 那个 目的 IP 地 址 除外 。 


27.3.1 


例子 


我 们 现在 把 TCP 回 射 客户 程序 改 为 指定 一 个 源 路 径 ， 把 TCP 回 射 
服务 器 程序 改 为 显示 一 个 接收 源 路 径 。 图 27-6 是 我 们 的 客户 程序 。 


ipopts/tcpcliül.c 


1 finclu3e *umo.h" 


2 int 


3 main(int arqc, char **aray) 


int Cc, Sockzd, len = 0; 
u cnar "ptr = NULL; 
sr addrinfo *ai; 
if (arge < 2) 
err zuit("usage: tepelici [ -[gG] -hostname> ... ] <hostname>"); 


opterr = 0; /^ don't wart getopti) writing tc stderr ^/ 
while | ic = getcpbí(arge, argv, *gG"]) t= -1) ( 
switch {=) | 
case 'g' : /* looss source route */ 
i£ [ptr] 


err_quit ("can't use both -g and -G"); 
ptr - inet_srert_init (0), 
brcals; 
oare 'G"; /* ctrict cource route */ 
i- [ptr] 
err quit("can't use bota -g end -G"j; 
ptr - inet srert init(i); 
break; 
case '? : 
err quit ("unrecogrized cpricn: tc", =); 
1 
j 
if (p-r! 
while (optind « argc-1! 
ler - inet_srert_sddiargvfoptind++]] ; 
else if ioptini < argc-1} 
err quit("need -g or -G tc apecify route"! ; 
if (optind != izrac 1)! 
err cuit("riesing «hostrare»"); 
ai = Host scerv(arqv|cptind], SERV PCRT STR, AF INET, SCCK STREAM]; 
SCCxtG = Socket (a:->ai_ family, a:-»a: socktvpe, &i-»ai protocol); 
if (pcr: ( 
ler = inst srcrt add(arczv[optind]); /* dest az erd */ 
Setsockact (sockfd, TPERITO TP, TP DPTIOMS, ptr, lem: 
free(prr); 
i 
Connect (seckfd, a:-»ai add-, si-»ai addrlen!; 
str cli(stdinr, scckfd); /* do it all «7 


exiti!2); 


ipopts/tepeliül.c 


图 27-6 ”指定 一 个 源 路 径 的 TCP 回 射 客户 程序 


处 理 命令 行 参数 


12-26 调用 inet_srcrt_init 函 数 初始 化 源 路 径 ， 路 径 类 型 
由 命令 行 选项 -g (表示 LSRR) zk-G (表示 SSRR) 指定 。 


27-33 ”如 果 初 始 化 成 功 ， 那 么 ptr 指 针 不 为 空 ， 我 们 于 是 调用 
inet_srcrt_add 函 数 把 通过 命令 行 指定 的 每 个 中 间 地 址 加 到 源 路 径 
中 。 和 否则 如 果 剩 余 命 令 行 参数 不 止 一 个 ， 那 是 用 户 指定 了 路 径 却 没有 
指定 其 类 型 ， 我 们 就 要 显示 出 错 消息 并 退出 。 


714~ 
处 理 目的 地 址 并 创建 套 接 字 


34-35 ”最 后 一 个 命令 行 参数 是 服务 器 主机 的 主机 名 或 点 分 十 进 
制 数 串 地 址 ， 由 我 们 的 host_serv 画 数 处 理 。 这 里 不 能 调用 我 们 的 
tcp_connect 函 数 ， 因 为 我 们 必须 在 socket 和 connect 这 两 个 调用 
之 间 指 定 源 路 径 。connect 将 发 起 三 路 握手 ， 我 们 期 望 SYN 分 节 所 在 
初始 外 出 分 组 和 所 有 后 续 外 出 分 组 都 使 用 这 个 源 路 径 。 


36-42 ”如 果 用 户 指定 了 一 个 源 路 径 ， 我 们 就 必须 把 服务 器 的 IP 
地 址 加 到 IP 地 址 列表 的 末尾 (图 27-1) 。setsockopt 给 套 接 字 安 装 
源 路 径 。 接 着 我 们 调用 connect， 随 后 调用 我 们 的 str_cli 函 数 (图 
5-5) ° 


我 们 的 TCP 服 务 器 程序 几乎 等 同 于 图 5-12 中 的 版 本 ， 只 有 两 处 改 
动 。 我 们 首先 为 I1P 选 项 分 配 空间 : 


int len; 
u_char *opts; 


opts = Malloc(44); 


然后 在 调用 accept 之 后 但 在 调用 fork 之 前 获取 并 显示 IP 选 项 : 


len = 44; 
Getsockopt(connfd, IPPROTO_IP, IP_OPTIONS, opts, &len); 
if (len > 0) { 

printf("received IP options, len = %d\n", len); 


inet_srcrt_print(opts, len); 


如 果 所 收取 的 来 自 客户 的 SYN 分 节 所 在 IP 数 据 报 不 包含 任何 IP 选 
项 ， 那 么 由 getsockopt 返 回 的 ljen 变 量 结果 将 为 0 (len 是 一 个 “ 值 一 结 
果 ” 参 数 ) 。 正 如 早先 所 提 ， 我 们 不 必 做 任何 事情 导致 TCP 使 用 所 收取 
源 路 径 的 逆转 : 这 是 TCP 上 自动 完成 的 〈TCPv2 第 931 页 ) 。 我 们 调用 
setsockopt 只 是 为 了 获取 逆转 了 的 接收 源 路 径 的 一 个 副本 。 如 果 不 
希望 TCP 使 用 这 个 路 径 ， 那 么 我 们 可 以 在 accept 返 回 之 后 通过 指定 其 
第 五 个 参数 KÆ) 为 0 调用 setsockopt ， 从 而 去 除 当 前 正在 使 用 的 
IP 选 项 。TCP 已 在 三 路 握手 (图 2-5) 第 二 个 分 节 所 在 IP 数 据 报 中 使 用 
接收 源 路 径 的 逆转 ， 不 过 如 果 我 们 后 来 去 除了 这 些 选项 ， 那 么 相应 
TCP 连 接 中 以 后 发 送 到 客户 的 分 组 将 纯粹 由 IP 确 定 外 出 路 径 。 


我 们 接着 给 出 指定 源 路 径 运行 以 上 客户 /服务 器 程序 的 一 个 例子 。 
适当 地 配置 源 路 径 的 处 理 和 分 组 的 转发 之 后 ， 我 们 在 主机 freebsd4 
上 按 以 下 方式 运行 客户 : 

在 进行 了 处 理 源 路 径 和 转发 IP 的 适当 配置 后 ， 该 命令 导致 IP 数 据 
报 从 freebsd4 转 发 到 macosx， 再 转发 加 freebsd4， 最 后 到 达 运 行 
服务 器 的 主机 macosx。 两 个 中 间 系 统 freebsd4 和 macosx 必 须 接受 
并 转发 源 路 由 的 数据 报 ， 以 使 本 例子 能 够 工作 。® 
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连接 建立 之 时 服务 右 的 输出 如 下 : 


macosx % tcpserv01 
received IP options, len = 16 


received LSRR: 172.24.37.94 172.24.37.78 172.24.37.94 


显示 的 第 一 个 也 地 址 是 逆转 路 径 的 第 一 跳 (freebsd4， 如 图 27-4 
所 示 ) ， 下 两 个 地 址 的 顺序 也 和 服务 器 把 数据 报 发 送 回 客 户 所 用 的 顺 


F » MARE A tcpdump hE a RSAC LL. eA a Bl) 
两 个 方向 上 每 个 数据 报 中 的 源 路 径 选 项 。 


不 匀 的 是 ，IP_0PTIONS 套 接 字 选项 的 操作 从 未 有 过 正式 文档 ， 
因而 在 不 是 源 自 Berkeley 源 代码 的 系统 上 可 能 会 页 到 一 些 异 变 。 举 例 
来 说 ， 在 Solaris 2.5 系 统 上 由 getsockopt 在 缓冲 区 中 返回 的 第 一 个 地 
HE (图 27-4) 并 不 是 返 转 路 径 的 第 一 跳 地 址 ， 而 是 对 端 主机 的 地 址 。 
尽管 如 此 ， 由 TCP 使 用 的 逆转 路 径 仍然 是 正确 的 。 另 外 ，Solaris 2.5% 
是 在 源 路 径 选 项 之 前 填充 4 个 NOP， 从 而 限制 源 路 径 最 多 有 8 个 IP 地 
址 ， 而 不 是 实际 最 多 可 达到 的 9 个 。 


27.3.2 ”删除 所 收取 的 源 路 径 


不 幸 的 是 ， 源 路 径 对 于 单纯 使 用 源 了 地址 进行 认证 的 服务 器 程序 
来 说 存在 一 个 安全 漏洞 。 要 是 某 个 黑客 作为 客户 发 送 的 分 组 以 一 个 受 
服务 器 信任 的 地 址 作为 源 地 址 ， 又 把 本 地 地 址 包括 在 源 路 径 中 ， 那 么 
由 服务 器 使 用 逆转 的 接收 源 路 径 返 回 的 分 组 将 无 需 经 过 列 在 源 路 径 中 
的 所 有 节点 就 到 达 黑 客 的 本 地 主机 。 从 Net1 版 本 (1989) 开始 ， 
rlogind 和 rshd 这 两 个 服务 絮 程 序 有 类 似 如 下 的 代码 。 


u_char buf[44]; 
char lbuf [BUFSIZ]; 
int optsize; 


optsize = sizeof(buf); 
if (getsockopt(0, IPPROTO IP, IP OPTIONS, 
buf, &optsize) == 0 && optsize != 0) ( 


/* format the options as hex numbers to print in lbuf[] */ 
syslog(LOG NOTICE, 


"Connection received using IP options (ignored):9s", 
lbuf); 
setsockopt(0, ipproto, IP OPTIONS, NULL, 0); 


如 果 到 达 一 个 含有 任何 IP 选 项 的 已 完成 连接 〈 即 由 getsockopt 
返回 的 optsize 值 不 为 0) ， 那 就 使 用 sys1l0g 登 记 一 条 消息 ， 再 调用 
setsockopt 去 除 这 些 选 项 。 这 么 做 防止 该 连接 上 以 后 发 送 的 任何 
TCP 分 蔬 使 用 接收 源 路 径 的 逆转 《实际 上 由 承载 该 TCP 分 和 的 IP 数 据 
报 使 用 ) 。 现 在 已 知 这 个 技巧 是 不 充分 的 ， 因 为 到 应 用 进程 接受 该 连 


接 时 ，TCP 三 路 握手 已 经 完成 ， 而 三 路 握手 的 第 二 个 分 节 (图 2-5 中 服 
务 器 的 SYN-ACK) 已 经 沿 循 所 收取 源 路 径 的 逆转 回 到 客户 (或 者 至 少 
回 到 了 列 在 产 路 径 中 的 某 个 中 间 季 点， 墨客 可 能 恰好 束 在 该 季 点 ) 。 
既然 黑客 已 经 看 到 两 个 方向 上 的 TCP 序 列 号 ， 即 使 来 自 服务 器 的 后 续 
分 组 不 再 使 用 源 路 径 发 送 ， 墨 客 仍 能 够 以 正确 的 序列 号 同 服 务 郁 发 送 


分 组 。 
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解决 这 个 潜在 问题 的 唯一 办 法 是 ， 当 使 用 源 IP 地 址 进行 某 种 形式 
的 认证 时 (如 rlogijnd 和 rshd 所 为 ; ， 禁 止 使 用 源 路 径 到 达 的 所 有 
TCP 连 接 。 在 刚才 给 出 的 代码 片段 中 ， 把 setsockopt 调 用 替换 为 天 
闭 刚 接受 的 连接 并 终止 新 派生 的 服务 絮 。 这 么 一 来 尽管 三 路 握手 的 第 
二 个 分 节 已 经 送出 ， 但 是 连接 却 不 会 仍然 打开 着 。 


27.4 IPv63 Bets 


我 们 在 图 A-2 中 没有 随 IPv6 首 部 展示 任何 选项 (IPv6 首 部 的 长 度 总 
是 40 字 节 ) ， 不 过 IPv6 首 部 可 以 后 跟 如 下 几 种 可 选 的 扩展 首部 


(extention header) 。 


(1) 步 跳 选项 (hop by hopoptions) 。 如 果 有 的 话 步 跳 选 项 必须 
HP R 。 目前 没有 定义 可 供应 用 程序 使 用 的 这 类 选 
项 。 


(2) 目的 地 选项 (destination options) ° 目前 没有 定义 可 供应 用 程 
序 使 用 的 这 类 选项 。 


(3) 路 径 首 部 (routing header) 。 这 是 一 个 源 路 由 选项 ， 在 概念 上 
类 似 于 我 们 在 27.3 克 讲解 的 了 Pv4 源 路 径 选 项 。 


(4) 分 片 首 部 (fragmentation header) 。 该 首部 由 对 IPv6 数 据 报 执 
行 分 片 的 主机 目 动产 生 ， 然 后 由 最 终 目 的 主机 在 重组 片段 时 处 理 。 


(5) 认证 首部 (authentication header, AH) 。 该 首部 的 用 法 在 RFC 
2402 |Kent and Atkinson 1998b| 中 说 明 。 


(6) 安全 净重 封装 (encapsulating security payload, ESP) 。 该 首部 
的 用 法 在 RFC 2406 [Kent and Atkinson | 中 说 明 。 


其 中 分 片 首 部 完全 由 内 核 处 理 ，AH 和 ESP 这 两 个 首部 可 以 由 内 核 
基于 SADB 和 SPDB 自 动 处 理 ， 而 SADB 和 SPDB 使 用 PF_KEY 套 接 字 维 
i" (第 19 章 ) 。 这 样 只 剩 下 前 3 个 扩展 首部 ， 我 们 将 在 下 两 中 讨论 它 
fl] ° RFC 3542 [Stevens et al. 2003] 定义 了 指定 和 获取 这 些 扩展 首部 

(包括 其 中 的 选项 ) 的 API。 


27.5 IPv627 IEEE DIA H eect 


步 跳 选项 和 目的 地 选项 有 类 似 的 格式 ， 如 图 27-7 所 示 。8 位 的 下 一 
个 首部 (next header) 字段 标识 跟 在 本 扩展 首部 之 后 的 下 一 个 首部 。8 
位 的 首部 扩展 长 度 (header extention length) 是 本 扩展 首部 的 长 度 ， 以 
8 字 节 为 单位 ， 但 是 不 包括 第 一 个 8 字 广 。 举 例 来 说 ， 如 果 本 扩展 首部 
占据 8 个 字 季 ， 其 首部 扩展 长 度 就 为 0 如果 本 扩展 首部 占据 16 字 有 ， 
其 首部 扩展 长 度 加 为 1， 以 此 类 推 。 这 两 种 首部 都 被 填充 成 8 字 克 的 整 
a 或 为 padN， 我 们 稍 后 讲解 这 两 种 填 

prin o 


0 78 15 16 23 24 31 


n WE 


A at n ex E At He WE CX. 


图 27-7” 步 跳 选 项 和 目的 地 选项 的 格式 
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步 跳 选项 昕 部 和 目的 地 选项 下 部 都 容纳 任意 数量 的 个 体 选 项 ， 其 
格式 如 图 27-8 所 示 。 


选项 伍 


D^ 3 长 度 字段 值 


图 27-8 个体 步 跳 选项 或 目的 地 选项 的 格式 


个 体 选 项 的 编排 格式 称 为 TLV 编 码 (TLV coding) ， 因 为 每 个 选 
项 都 呈现 为 它 的 类 型 (type) 、 长 度 (length) 和 值 (value) 三 个 字 


段 。8 位 的 类 型 字段 标识 选项 类 型 。 除 此 之 外 ， 该 字段 的 高 序 两 位 指定 
IPv6 下 点 在 不 理解 本 选项 的 情况 下 如 何 处 理 它 。 


00 ” 跳 过 本 选项 ， 继 续 处 理 本 首部 。 
01 丢弃 本 分 组 。 


00 丢弃 本 分 组 ， 并 且 不 论 本 分 组 的 目的 地 址 是 否 为 一 个 多 播 地 
址 ， 均 发 送 一 个 ICMP 参 数 问题 类 型 2 错误 (图 A-16) 给 发 送 者 。 


00 丢弃 本 分 组 ， 并 且 只 在 本 分 组 的 目的 地 址 不 是 一 个 多 播 地 址 
的 前 提 下 ， 发 送 一 个 ICMP 参 数 问题 类 型 2 错误 (图 A-16) 给 发 送 者 。 


下 一 个 高 序 位 指定 本 选项 的 数据 在 途中 有 无 变化 。 

o ”选项 数据 在 途中 无 变化 。 

1 选项 数据 在 途中 可 能 变化 。 

低 序 5 位 指定 选项 本 身 。 需 注意 的 是 ， 低 序 5 位 不 能 孤立 标识 一 个 
选项 ， 而 是 需要 与 高 序 3 位 共同 标识 。 尽 管 如 此 ， 类 型 字段 的 赋值 仍然 
尽 可 能 保持 低 序 5 位 的 唯一 性 。 


8 位 的 长 度 字段 指定 选项 数据 的 字 节 长 度 ， 类 型 字段 和 本 长 度 字段 
不 在 这 个 长 度 的 计量 范围 之 内 。 
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那 两 个 填充 选项 定义 在 RFC 2460 [Deering and Hinden 1998 | 

中 ， 在 步 跳 选项 首部 和 目的 地 选项 首部 中 都 可 以 使 用 。 特 大 净 荷 长 度 

(jumbo payload length) 是 一 个 步 跳 选项 ， 定 义 在 RFC 2675 |Borman, 
Deering, and Hinden 1999] 中 ， 它 完全 由 内 核 在 需要 时 产生 ， 在 收 到 
时 处 理 。 路 由 器 告警 (router alert) 也 是 一 个 步 跳 选项 ， 在 RFC 2711 

| Partridge and Jackson] 中 讲解 ， 类 似 于 IPv4 的 路 由 器 告警 。 图 27-9 展 
示 了 这 些 选项 。 定 义 过 的 选项 还 有 一 些 (例如 Mobile-IPv6 所 用 的 一 些 
选项 ) ， 我 们 不 讨论 它们 。 


"EAE S EE: 


路 由 器 告警 : 5 2 fH 


2 字 节 
图 27-9 ”IPv6 步 跳 选项 


padi1 远 项 是 唯一 没有 长 度 和 值 这 两 个 字段 的 选项 。 它 提供 1 字 市 
的 填充 。padN 选 项 用 于 需要 2 个 或 多 个 字 市 填充 的 场合 。 对 于 2 字 市 填 
充 ， 本 选项 的 长 度 字 段 为 0， 整 个 选项 丈 由 类 型 和 长 度 这 两 个 字段 构 
成 。 对 于 3 子 节 填充 ， 本 选项 的 长 度 了 字段 为 1， 后 跟 1 字 市 的 0 值 。 特 大 
净 傈 长 度 选 项 提供 一 个 32 位 的 数据 报 长 度 ， 用 于 图 A-2 中 展示 的 16 位 
净 傈 长 度 字 段 不 够 大 的 场合 。 路 由 器 告 警 选 项 指示 本 分 组 应 由 沿途 路 
由 器 截取 ， 其 值 指出 哪些 路 由 器 需 关 注 本 分 组 。 


我 们 展示 这 些 选 项 的 原因 在 于 每 个 步 跳 选 项 和 目的 地 选项 都 有 一 
个 对 齐 要 求 (alignment requirement) ， 写 作 xn+y， 表 示 这 个 选项 必须 
出 现在 距离 所 在 扩展 首部 开始 处 x 字 广 整数 倍加 y 字 市 的 位 置 。 举 例 来 
说 ， 特 大 净 何 长 度 选 项 的 对 齐 要 求 是 4n+2， 该 要 求 迫 使 4 字 节 的 选项 
E ERPE KE) 处 于 某 个 4 字 节 边界 。 该 选项 的 y 值 取 2 是 因为 出 现 
在 每 个 步 跳 选 项 和 目的 地 选项 值 字段 之 前 的 2 个 字 节 (图 27-8) 。 路 由 
需 告 警 选项 写作 2n+0 的 对 齐 要 求 迫 使 2 字 节 选项 值 处 于 某 个 2 字 蔬 边 
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步 跳 选项 和 目的 地 选项 通常 作为 辅助 数据 通过 调用 sendmsg 指 
定 ， 并 由 recvmsg 调 用 作为 辅助 数据 返回 。 应 用 进程 无 需 为 发 送 这 两 
类 选项 做 任何 特别 之 事 ， 而 只 需 在 某 个 sendmsg 调 用 中 指定 它们 。 为 
了 接收 这 两 类 选项 ， 应 用 进程 必须 开局 对 应 的 套 接 字 选 项 : 步 跳 选项 
对 应 IPV6_RECVHOPOPTS， 目 的 地 选项 对 应 IPV6_RECVDSTOPTS ° 
举例 来 说 ， 人 允许 这 两 类 选项 都 返回 的 代码 如 下 。 


const int on = 1; 


setsockopt(sockfd, IPPROTO_IPV6, IPV6_RECVHOPOPTS, &on, 


sizeof(on)); 
setsockopt(sockfd, IPPROTO_IPV6, IPV6_RECVDSTOPTS, &on, 
sizeof(on)); 


图 27-10 展 示 了 用 于 发 送 和 接收 步 跳 选 项 和 目的 地 选项 的 辅助 数据 
对 象 的 格式 。 


cmsghdr{} cmsghdr{} 
emsg_ien | 
cmsg level IPPROTO IPV6 cmsg level IPPROTO IPVé 
emag type IPV6 HOPOPTS | enmsg type TPV6& DSTOPTS 
^y BiU T H 193b v ri 
| 
| 


| 


图 27-10” 步 跳 选项 和 目的 地 选项 的 辅助 数据 对 和 象 

这 两 类 选项 首部 的 实际 内 容 作为 辅助 数据 对 象 的 cmsg_data 部 分 
在 进程 和 内 核 之 间 传 递 。 为 了 避免 直接 定义 这 些 内 容 ， 相 关 API 定 义 
了 7 个 用 于 创建 和 人 处理 这 些 辅 助 数据 对 象 数 据 部 分 的 函数 。 以 下 4 个 函 
数 用 于 构造 待 发 送 的 选项 。 
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#include <netinet/in.h> 


int inet6_opt_init(void *extbuf, socklen t extlen); 


返回 ， 容纳 空 扩展 首部 所 需 的 字 


贡 数 ， 若 出 错 则 为 -1 


int inet6_opt_append(void *extbuf, socklen_t extlen, 
int offset, uint8 t type, socklen t len, 
uint8 t align, void **databufp); 


- 


回 : 添加 选项 后 更 新 的 扩展 首部 


int inet6_opt_finish(void *extbuf, socklen_t extlen, int offset); 


返回 : 完成 设置 后 更 新 的 扩展 首部 


int inet6_opt_set_val(void *databuf, int offset, 
const void *val, socklen_t vallen); 


- 


|: databuf 中 新 的 偏 移 


inet6_opt_init 返 回 容纳 一 个 空 扩展 首部 所 需 的 字 节 数 。 如 果 
extbuf 指 针 参数 不 为 空 ， 它 就 初始 化 这 个 扩展 首部 。 如 果 extbuf 参 数 不 
为 空 ， 但 是 extlen 参 数 却 不 是 8 的 倍数 ， 它 就 以 -1 失败 返回 。 (所 有 
IPv6 步 跳 和 目的 地 选项 扩展 首部 必须 是 8 的 倍数 。) 


inet6_opt_append 返 回 添加 指定 的 个 体 选 项 后 更 新 的 扩展 首 
部 总 长 度 。 如 果 extbuf 参 数 不 为 空 ， 它 就 初始 化 该 个 体 选项 并 按照 对 齐 
要 求 插入 必要 的 填充 。 如 果 所 提供 的 缓冲 区 放 不 下 新 选项 ， 它 残 以 -1 
失败 返回 。offset 参 数 是 当前 游 动 的 总 长 度 ， 必 须 是 先前 某 个 
inet6_opt_init 或 inet6_opt_append 调 用 的 返回 值 。 参 数 type 
和 len 分 别 指定 了 选项 的 类 型 和 长 度 ， 并 直接 被 复制 到 选项 百 部 中 。 
align 人 参数 指定 对 齐 要 求 ， 即 xn+y 中 的 x 值 ， 而 y 值 可 由 align 和 en 值得 
出 ， 因 此 不 必 显 式 地 指定 。databufp 参 数 用 于 返回 指向 所 添加 选项 值 
的 填写 位 置 的 一 个 指针 ， 调 用 者 随后 可 以 使 用 inet6_opt_set_val 
函数 或 其 他 方法 往 这 个 位 置 复 制 选项 值 。 


inet6_opt_finish 用 于 结束 一 个 扩展 首部 的 设置 ， 添 加 任何 
必要 的 填充 ， 使 得 总 长 度 为 8 的 倍数 。 如 有 果 extbuf 参 数 不 为 宇 ， 它 束 把 
填充 真正 插入 缓冲 区 中 ， 否 则 它 只 是 计算 并 更 新 总 长 度 。 与 
inet6_opt_append 一 样 ，offset 参 数 是 当前 游 动 的 总 长 度 ， 必 须 是 
先前 某 个 ijnet6_opt_init 或 jnet6_opt_append 调 用 的 返回 值 。 


本 函数 返回 已 完成 设置 的 扩展 首部 总 长 度 ， 不 过 如 有 果 所 提供 的 缓冲 区 
放 不 下 所 和 需 的 填充 ， 那 束 返 回 -1。 
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inet6_opt_set_val 用 于 把 给 定 的 选项 值 复制 到 由 
inet6_opt_append 返 回 的 数据 缓冲 区 中 。databuf 参 数 是 由 
inet6_opt_append 返 回 的 指针 。o 太 et 参数 在 该 数据 缓冲 区 内 的 游 
动 长 度 ， 调 用 者 必须 为 每 个 选项 将 其 初始 化 为 0， 以 后 随 着 这 个 选项 的 
构造 完成 ， 该 参数 就 是 前 一 个 jnet6_opt_set_val 调 用 的 返回 值 。 
参数 val/ 和 valen 用 于 指定 复制 到 选项 值 缓冲 区 中 的 值 。 


这 些 函 数 的 期 望 用 法 是 遇 历 两 趟 竺 添加 的 个 体 选项 列表 : 第 一 赵 
用 于 计算 预期 的 长 度 ， 第 二 趟 用 于 把 各 个 选项 实际 构造 到 大 小 合适 的 
缓冲 区 中 。 无 论 哪 一 趟 都 是 先 调用 inet6_opt_init， 再 为 每 个 待 添 
加 的 选项 调用 一 次 inet6_opt_append， 最 后 以 调用 
inet6_opt_finish 结 束 。 第 一 趟 中 传递 给 extbuF 和 extien 这 两 个 参数 
的 分 别 是 NULL 和 0。 第 一 趟 结束 后 使 用 由 inet6_opt_finish 返 回 
的 大 小 动态 分 配 用 于 存放 选项 扩展 首部 的 缓冲 区 ， 第 二 趟 中 束 使 用 指 
回 该 缓冲 区 的 一 个 指针 及 该 缓冲 区 的 长 度 作为 extbuF 和 extilen 这 两 个 参 
数 的 值 。 在 第 二 趟 中 ， 每 个 选项 的 值 或 者 手工 复制 ， 或 者 调用 
inet6_opt_set_val 复 制 。 我 们 也 可 以 预先 分 配 一 个 对 于 待 添 加 的 
选项 来 说 应 该 足够 大 的 缓冲 区 ， 从 而 省 略 掉 第 一 趋 ， 不 过 缓冲 区 的 大 
小 有 时 候 不 易 预 估 ， 有 可 能 导致 第 二 趟 以 失败 告终 。 


其 余 3 个 函数 用 于 处 理 所 接 收 的 选项 。 


#include <netinet/in.h> 


int inet6_opt_next(const void *extbuf, socklen_t extlen, int 
offset, 

uint8 t *typep, socklen t *lenp, void 
**gatabufp); 


返回 : EFE BRENDA IEEE, dm 


则 或 奉 出 错 则 为 -1 


int inet6_opt_find(const void *extbuf, socklen_t extlen, int 
offset, 
uint8 t type, socklen_t *lenp, void **databufp); 


返回 : EFE RMU A es, A 


则 或 看 出 错 则 为 -1 


int inet6_opt_get_val(const void *databuf, int offset, 
void *val, socklen_t vallen); 


ws 
Ta] 


databuf 中 新 的 偏 移 


inet6_opt_next 处 理 某 个 缓冲 区 中 的 下 一 个 选项 。 参 数 extbuf 
和 extlen 用 于 指定 该 缓冲 区 。 与 net6_opt_append 类 似 ，offset 参 数 
是 指 回 该 缓冲 区 的 游 动 偏 移 量 。 首 次 调用 本 男 数 时 应 该 指定 其 值 为 0， 
以 后 就 使 用 前 一 个 调用 的 返回 值 。typep、lenp 和 databufp 这 三 个 参数 分 
别 用 于 返回 当前 游 动 选项 的 类 型 、 长 度 和 值 。 如 果 所 指定 缓冲 区 不 符 
a ee ee RAIL 
-1 ° 
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inet6_opt_find°RWE—PARM, PELL TRE RHSE 
索 的 选项 类 型 (type 参 数 ) ， 以 取代 总 是 返回 下 一 个 选项 。 


inet6_opt_get_val 用 于 从 由 databuf 参 数 指定 的 某 个 选项 值 中 
抽取 数据 ， 而 这 个 参数 是 由 inet6_opt_next 或 inet6_opt_find 
返回 的 指针 。 与 inet6_opt_set_val 一 样 ，offet 参 数 必须 由 调用 者 
为 每 个 选项 初始 化 为 0， 以 后 使 用 前 一 个 jnet6_opt_get_val 调 用 
的 返回 值 。 


27.6 ”IPv6 有 路 由 首部 


IPv6 路 由 首部 用 于 IPv6 的 源 路 由 。 该 首部 的 前 两 个 字 节 和 图 27-7 

所 示 的 一 样 ， 先 后 分 别 是 下 一 个 首部 (next header) 字段 和 首部 扩展 

KÆ (header extension length) 字段 。 下 两 个 字 节 分 别 指定 路 由 类 型 

(routing type) 和 剩余 网 段 (segments left) AA (也 就 是 所 列 节点 中 

还 有 多 少 个 需要 拜访 ) 。 已 经 定义 的 路 由 首部 只 有 一 个 类 型 ， 它 的 路 
由 类 型 字段 为 0， 格 式 如 图 27-11 所 示 。 


725 


HAH ae 路 由 类 型 -0 


地 址 .1 


地 址 2 


图 27-11 ”IPv6 路 由 首部 


路 由 首部 中 可 以 出 现 的 地 址 数目 仅仅 受 限 于 分 组 允许 长 度 等 外 在 
因素 ， 而 剩余 分 节 这 个 字段 的 取 值 必须 小 于 等 于 所 列 的 地 址 数目 。 
RFC 2460 [Deering and Hinden 1998] 说 明了 一 个 具有 路 由 首部 的 分 组 
在 游历 到 最 终 目的 地 的 过 程 中 各 个 途经 节点 如 何 处 理 该 路 由 首部 的 有 具 
体 细节 ， 并 给 出 了 详尽 的 例子 。 


726 
路 由 首部 通常 作为 辅助 数据 经 调用 sendmsg 指 是 ， 并 由 recvmsg 
调用 作为 辅助 数据 返回 。 应 用 进程 无 需 为 发 送 这 个 首部 做 任何 特别 之 


事 ， 而 只 需 在 某 个 sendmsg 调 用 中 指定 它 。 为 了 接收 路 由 首部 ， 应 用 
进程 必须 开启 IPV6_RECVRTHDR 套 接 字 选项 ， 如 以 下 代码 所 示 。 


const int on = 1; 


setsockopt(sockfd, IPPROTO_IPV6, IPV6_RECVRTHDR, &on, sizeof(on)); 


图 27-12 给 出 了 用 于 发 送 和 接收 路 由 首部 的 辅助 数据 对 象 的 格式 。 
相关 API 为 创建 和 处 理 路 由 首部 定义 了 6 个 函数 。 以 下 3 个 画 数 用 于 构 
造 行 发 送 的 路 由 首部 。 


cmsghdr { } 


路 由 首部 


IPPROTO IPV6 
IPV6 RTHDR 


127-12 ”IPv6 路 由 首部 的 辅助 数据 对 象 


#include <netinet/in.h> 


socklen_t inet6_rth_space(int type, int segments); 


返回 : 若 成 功 则 为 正 的 字 节 


数 ， 大 出 错 则 为 0 


void *inet6_rth_init(void *rthbuf, socklen_t rthlen, 
int type, int segments); 


返回 ， 若 成 功 则 为 非 空 指 


针 ， 若 出 错 则 为 NULL 
int inet6 rth add(void *rthbuf, const struct in6 addr *addr); 


返回 : 若 成 功 则 


KO, AH fall Ay -1 


inet6_rth_space 返 回 容纳 一 个 类 型 由 type 参 数 (其 值 通常 为 
IPV6 RTHDR TYPE 0) 指定 且 网 段 总 数 为 segments 参 数值 的 路 由 
首部 所 需 的 字 节 数 。 


inet6_rth_init 初 始 化 由 rthbuf 指 向 的 缓冲 区 ， 以 容纳 一 个 类 
型 为 type 值 且 网 段 总 数 为 segments 值 的 路 由 首部 。 返 回 值 是 指 回 该 缓冲 
区 的 一 个 指针 ， 不 过 若 发 生 错 误 (例如 所 提供 的 缓冲 区 不 够 大 ) 则 为 
空 指针 。 不 是 空 指针 的 返回 值 用 作 下 一 个 函数 的 一 个 参数 。 


inet6_rth_add 把 由 addr 指 回 的 IPv6 地 址 加 到 构建 中 的 路 由 首 
ros. 。 调 用 成 功 时 该 路 由 首部 的 剩余 网 段 成 员 会 被 更 新 为 新 的 地 
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以 下 3 个 函数 用 于 处 理 所 接收 的 路 由 首部 。 


#include <netinet/in.h> 


int inet6_rth_reverse(const void *in, void *out); 


返回 : AAA 
则 为 0， 若 出 错 则 为 -1 


int inet6 rth segments(const void *rthbuf); 


返回 : 郑成功 则 为 路 由 首部 中 的 


网 段 数目 ， 若 出 错 则 为 -1 
struct in6 addr *inet6_rth_getaddr(const void *rthbuf, int index); 


返回 : 若 成 功 则 为 


非 空 指针 ， 者 出 错 则 为 NULL 


inet6_rth_reverse 根 据 由 in 参 数 所 指 绥 冲 区 中 存放 的 某 个 接 
收 路 由 首部 创建 一 个 新 的 路 由 首部 ， 存 放 在 由 out 参 数 所 指 的 缓冲 区 
中 ， 以 便 接 收 进 程 沿 逆 转 的 路 径 发 送 回 数据 报 。 路 径 的 逆转 可 以 当场 
发 生 ， 也 束 是 说 ，in 和 out 文 两 个 指针 可 以 指 回 同一 个 缓冲 区 。 


inet6_rth_segments 返 回 由 rthbuf 所 指 路 由 首部 中 的 网 段 数 
目 。 调 用 成 功 时 返回 值 应 该 大 于 0。 


inet6_rth_getaddr 用 于 返回 由 rthbuf 所 指 路 由 首部 中 索引 号 
为 index 的 那个 IPv6 地 址 ， 返 回 值 是 指向 该 地 址 所 在 位 置 的 一 个 指针 。 
index 的 值 必须 在 以 0 和 inet6_rth_segments 的 返回 值 减 去 1 为 界限 
的 闭 区 间 内 。 


为 了 展示 IPv6 路 由 首部 的 用 法 ， 我 们 编写 一 对 UDP 客户 程序 和 服 
务 吉 程序 。 该 客户 程序 如 图 27-13 所 示 ， 它 就 像 图 27-6 所 示 的 IPv4 TCP 
客户 程序 那样 从 命令 行 接受 一 个 源 路 径 。 该 服务 器 显示 所 收取 IPv6 数 
据 报 的 接收 源 路 径 ， 再 把 该 数据 报 沿 接收 源 路 径 的 逆转 发 送 回 客户 。 


ipopis/edpclióll.c 


1 Hiuclude 'unp.i* 


2 inr 


3 main(int argc, char **arqv) 


int 


-, sockfd, len = 9; 


void “rth; 
struct addrinfe *ai; 


4 { 

S 

6 u_char rprr = NULL; 
7 

8 


q if (ezuc e 2) 

10 err quit('usage: udpcli21 (| «hostnama- ... ] <hostname>") ; 

1i if (arec > 2) { 

12 int i; 

13 len = Tner& th space(TFV& RTHDR TYP* DL, argo-2): 

14 rtr = Malloc(ler;,; 

15 Inst$S rta init(ptr, len, IPV6 RTHDR TYPE 0, argc 2!; 

16 for (2-13; i < arg--1; i++) [ 

17 ai - Host serv(argv[1], NULL, AF INETe, 3); 

18 Inet rth addiptr, 

19 &l(struct sockaddrz ir6 "lai--ai acdrl-»sin6 addr); 
20 ) 

21 | 

22 ai = Host serv(argv|argo 1,, ZERV PORT STR, AF -NET6, SOCK DGRAM]; 
23 sockfd = Sccketíai-»ai family, ai-»ai socktvpe, ai-»ai p-otocol); 
24 if (ptr! [ 

25 setscckopt(sockfd, IPERUTC LPVE, IPVa KRTHDR, ptr, len); 

26 tree (per) ; 

27 j 

25 (dg ci (st din, soh fd, ai-saij addr, aji-aji edorlen); 5 chs it all +f 
29 exizi0): 

30 ] 


创建 源 路 径 


11~21 


ipopis/udpchi01.c 


图 27-13 ”指定 一 个 源 路 径 的 IPv6 UDP 客户 程序 


如 有 果 所 提供 的 主机 名 参数 不 止 一 个 ， 那 么 源 路 径 由 除 最 


后 一 个 之 外 的 所 有 参数 构成 。 首 先 调用 inet6_rth_space 确 定 创建 


路 由 首部 需要 多 大 空间 ， 调 用 malloc 分 配 这 个 空间 后 再 调用 
inet6_rth_init 初 始 化 所 分 配 的 缓冲 区 。 然 后 对 源 路 径 中 的 每 个 地 
址 先 调 用 host_serv 把 它 转换 成 数值 格式 ， 再 调用 inet6_rth_add 
把 它 添加 到 构建 中 的 源 路 径 。 这 个 过 程 类 似 对 照 的 IPv4 TCP 客 户 程 
序 ， 甜 别 是 IPv4 的 API 要 求 我 们 目 行 编写 帮手 函数 ， 而 IPv6 的 API 由 系 
统 作 为 库 函 数 提供 。 


查找 目的 地 并 创建 套 接 字 


22-23 使 用 host_serv 查 找 目的 主机 名 的 数值 格式 地 址 ， 并 创 
建 一 个 套 接 字 。 


设置 IPV6_RTHDR 并 调用 工作 者 画 数 


24-27 ”我们 将 在 27.7 节 看 到 ， 通 过 调用 setsockopt 设 置 
IPV6_RTHDR 套 接 字 选项 可 以 把 一 个 路 由 首部 应 用 于 从 某 个 套 接 字 发 
送 的 所 有 分 组 ， 以 取代 为 每 个 分 组 发 送 同样 辅助 数据 的 做 法 。 我 们 只 
在 早先 分 配 过 路 由 首部 的 前 提 下 ( 即 ptr 非 空 ) 设置 该 选项 。 最 后 调 
用 图 8-8 中 给 出 的 工作 者 函数 dg_cli。 


服务 器 程序 类 似 图 8-3 给 出 的 简单 程序 ， 打 开 一 个 UDP 套 接 字 并 调 
用 dg_echo。 其 设置 相当 简单 ， 我 们 没有 给 出 。 不 过 我 们 在 图 27-14 中 
给 出 了 所 调用 的 dg_echo 范 数 版 本 : 如 果 收 到 一 个 携带 源 路 径 的 分 
组 ， 那 就 显示 这 个 源 路 径 ， 并 逆转 它 以 用 于 返 送 该 分 组 。 


ipopisidgechoprintratite.c 


1 #include "urp.h" 

2 void 

3 dg_echo(int sockfd, SA *pcliaddr, sockler t clilen) 
4 | 


int n; 
€ enar mecq [MAXLINE] ; 
了 int on; 
Li char cor.trol[MAXLIME]: 
9 struct msghdr msg; 
10 struct cmagher  *crsc, 
1- etruct iovec iov 1]; 
12 oi = l; 
13 SeLsockoup-(isockld, IPPROTO IPV6, IPV6 RECVRTHDR, &on, sizeof(on)]; 
14 bzerolémsg, sizecf(msg!); 
15 icv[0].iov bacc =- tesq; 
16 nsq.msq name = p--iaddr; 
17 msg.msy iov = iou; 
18 nsg.msg iovlen = 1; 
19 maq.maq control = control; 
PI for 5 34) 
2 mso, mso manele: = cliler; 
3 (isa isg oa?brollean = sizeof (cont roli; 
z iov[O].zc2v -en = MAXLIND, 
z n= Recvreqiseckid, ames, 0); 
2 for (cmsy = CMSG FIRSTHDR(Zmeg): cms t= NULL; 


- 
3 

4 

5 
26 (nw om CMRG WXTHTR (Ausg, cmsg) ! [ 
? 

8 

9 

ü 


2 if (cmea->cmag_level -~ IPPROTO_LIPWG 55 

z cmsq >omaq type == IPV6 RTHDR) | 

z inets erort print(CwSG IATA (cemeg) |; 

3 Tnet^5 rr^? reverse (OWSS_TATA(cmsg), CMSG_NATA(cmsg): ; 
31 } 

32 ) 

33 iov(U).icv ien - n; 

34 Serdmscí(sockfd, msg, 0); 

35 

36 ! 


ipopis/dgechoprintvoute.c 


图 27-14 ”显示 并 逆转 IPv6 源 路 径 的 dg_echo 画 数 


开启 IPV6_RECVRTHDR 并 设置 msghdr 结 构 


12-19 我 们 必须 开启 IPV6_RECVRTHDR 套 接 字 选项 才能 接收 外 
来 源 路 径 。 我 们 还 设置 用 于 接收 外 来 源 路 径 的 msghdr 结 构 的 恒定 字 
段 。 


设置 nsghdr 结 构 可 变 字段 并 调用 recvmsg 


21-24 对 于 msghdr 结 构 中 会 被 recvmsg 调 用 改 掉 的 若干 个 长 
度 字 段 ， 我 们 在 每 次 调用 该 函数 前 重新 设置 它们 。 


寻找 并 处 理 路 由 首部 


25-32 使 用 宏 CMSG_FIRSTHDR 和 CMSG_NXTHDR 遍 历 辅助 数据 
以 寻找 路 由 首部 。 虽 然 我 们 只 需要 一 份 辅助 数据 ， 但 如 此 遇 历 仍 不 失 
为 一 种 好 做 法 。 如 果 找 到 一 个 ， 那 就 调用 我 们 的 
inet6_srert_print&& (图 27-15) 显示 其 中 的 源 路 径 ， 然 后 使 
用 inet6_rth_reverse 逆 转 该 路 径 ， 以 便 沿 同样 的 路 径 返 送 所 接收 
的 分 组 。 本 例子 中 ijnet6_rth_reverse 当 场 逆转 路 径 ， 因 此 我 们 可 
以 使 用 同一 个 msghdr 结 构 返 送 所 接收 的 分 组 。 


inopts/sourcerouteb.c 
1 Ho nelude "unp.h* 


2 void 
3 incto orcrt prirt(void *pzr! 


5 int i, segments; 

6 char str INET6 ADDRSTRLEN] ; 

7 segments = lne-6 r-h sezments(p-r); 

a pe int OC received sii conet "); 

y for (i ~ 0; 1 < segments; 14+) 

1C princf("ts ', Inet ntcp(A7? INDT6, InmetS_rth_getadar(ptr, i). 
11 str, s-ze-fís-r))); 

l2 printf (*\n"); 


ipopts/soucerouteti.c 


图 27-15 hüns-— AP Rí inet6_srcrt_print HRY 


33-34 设置 好 所 回 射 数据 的 长 度 ， 然 后 调用 sendmsg 返 送 所 接 
收 的 分 组 。 
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我 们 的 inet6_srcrt_print 函 数 因为 使 用 IPv6 路 由 首部 帮手 函 
数 而 显得 相当 人 简单 。 
确定 源 路 径 中 的 网 段 数 

7 调用 inet6_rth_segments 确 定 源 路 径 中 存在 的 网 段 数 。 
遍历 每 个 网 段 

9-11 遍历 所 有 网 段 ， 对 于 每 个 网 段 调用 
inet6_rth_getaddr 获 取 其 地 址 ， 再 使 用 inet_ntop 把 该 地 址 由 
数值 格式 转换 成 表达 格式 。 

处 理 IPv6 源 路 径 的 客户 和 服务 器 程序 无 需 了 解 源 路 径 在 分 组 中 是 


如 何 格式 化 的 。API 提 供 的 库 函 数 隐 藏 了 分 组 格式 的 细 世 ， 但 为 我 们 
提供 了 从 IPv4 中 的 高 速 暂 存 器 构 造 选项 时 所 提供 的 全 部 灵活 性 。 


27.7 ”IPv6 精 附 选项 


我 们 已 经 讲解 了 作为 辅助 数据 使 用 sendmsg 和 recvmsg 发 送 和 接 
收 的 7 种 辅助 数据 对 象 。 


(1) IPv6 分 组 信息 : in6_pktinfo 结 构 或 者 包含 目的 地 址 和 外 出 
接口 索引 ， 或 者 包含 源 地 址 和 到 达 接 口 索 引 (图 22-21) ° 


(2) 外 出 跳 限 或 接收 跳 限 (图 22-21) ° 

(3) 下 一 跳 地 址 (图 22-21) 。 只 能 发 送 不 能 接收 。 
(4) 外 出 流通 类 别 或 接收 流通 类 别 (图 22-21) ° 
(5) 步 跳 选项 (图 27-10) 。 

(6) 目的 地 选项 (图 27-10) ° 

(7) 路 由 首部 (图 27-12) ° 
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我 们 在 图 14-11 中 与 其 他 辅助 数据 对 象 一 道 汇 总 了 这 些 对 象 的 
cmsg_level 值 和 cmsg_type 值 。 


如 果 这 些 辅助 数据 对 象 各 目 有 单个 值 将 应 用 于 从 某 个 套 接 字 发 送 
的 所 有 分 组 ， 那 么 我 们 不 必 每 次 调用 sendmsg 时 都 发 送 它们 ， 而 是 代 
之 以 设置 相应 的 套 接 字 选项 。 这 些 套 接 字 选项 所 用 常 值 与 辅助 数据 对 
象 一 致 ， 也 就 是 说 调用 setsockopt 的 级 别 参数 总 是 
IPPROTO_IPV6， 选 项 名 参数 可 以 是 IPV6_PKTINF0O、 
IPV6_HOPLIMIT ` IPV6_NEXTHOP ` IPV6_TCLASS ` 
IPV6_HOPOPTS ` IPV6 DSTOPTSZVIPV6 RTHDR ° AmI FUDPÆ 
接 字 和 原始 IPv6 套 接 字 ， 我 们 可 以 通过 在 sendmsg 调 用 中 指定 相应 辅 
助 数据 对 象 这 一 手段 ， 针 对 每 个 分 组 履 写 这 些 粘 附 性 选项 。 如 果 
sendmsg 调 用 中 指定 了 某 个 辅助 数据 对 象 ， 相 应 精 附 性 选项 就 不 随 所 
发 送 的 数据 报 发 送 。 


粘 附 性 选项 的 概念 同样 适用 于 TCP， 因 为 在 TCP 套 接 字 上 绝 不 能 
使 用 sendmsg 或 recvmsg 发 送 或 接收 辅助 数据 。TCP 应 用 进程 可 以 通 
过 设置 相应 的 套 接 字 选 项 以 指定 上 述 7 种 辅助 数据 对 象 之 任意 组 合 。 这 
些 对 象 随后 影响 在 相应 套 接 字 上 发 送 的 所 有 分 组 。 然 而 如 果 某 个 分 组 
需要 重 传 ， 且 发 送 原初 分 组 和 重 传 分 组 时 粘 附 性 选项 的 设置 发 生变 
Re eee 也 可 能 是 
LS o 


希望 在 某 个 套 接 字 上 调用 recvmsg 接 收 这 些 辅助 数据 对 象 的 应 用 
进程 必须 预先 在 该 套 接 字 上 开启 相应 的 套 接 字 选项 
IPV6 RECVPKTINFO ` IPV6 RECVHOPLIMIT ` 
IPV6 RECVTCLASS ` IPV6 RECVHOPOPTS ` IPV6 RECVDSTOPTS 
或 ITPV6_RECVRTHDR。TCP 应 用 进程 也 可 以 如 此 获取 这 些 辅助 数据 对 
象 ， 不 过 既然 在 TCP 套 接 字 上 不 能 使 用 recvmsg 与 用 户 数 据 一 道 接收 
辅助 数据 ， 由 recvmsg 返 回 的 这 些 精 附 性 选项 实际 上 来 自 最 近 收 取 的 
分 节 所 在 的 IPv6 分 组 。 这 些 选 项 应 该 是 面向 整个 TCP 连 接 的 ， 也 就 是 
说 所 有 外 来 段 所 在 的 IPv6 分 组 具有 相同 的 选项 。® 


27.8 ”历史 性 TIPv6 高 级 API 


RFC 2292 [Stevens and Thomas 1998] 定义 了 本 章 讲解 的 ITPv6 高 
级 API 的 一 个 早期 版 本 。 在 这 个 早期 版 本 中 ， 用 于 处 理 步 跳 和 目的 地 
选项 的 函数 是 ijnet6_option_space、inet6_option_init、 
inet6 option append inet6 option alloc、 
inet6_option_next 和 inet6_option_find。 若 所 有 选项 都 包含 
在 辅助 数据 中 ， 这 些 函 数 会 直接 处 理 cmsghdr 结 构 中 的 对 象 。 用 于 处 
理 路 由 首部 的 函数 是 inet6_rthdr_space、 
inet6_rthdr_init ` inet6_rthdr_add ` 
inet6_rthdr_lasthop 、 inet6 rthdr reverse-^ 
inet6 rthdr segments ^ inet6_rthdr_getaddr#ll 
inet6_rthdr_getflags。 它 们 都 直接 操作 cmsghdr 结 构 中 的 辅助 
数据 对 象 。 


在 这 个 API 中 ， 辣 附 性 选项 使 用 IPV6_PKTOPTIONS 单 个 套 接 字 
选项 设置 或 获取 。 原 本 传递 给 人 sendmsg 或 由 recvmsg 返 回 的 辅助 数据 
对 象 也 可 以 作为 IPV6_PKTOPTIONS 套 接 字 选项 的 数据 部 分 。 另 外 ， 
套 接 字 选 项 ITPV6_DSTOPTS、IPV6_HOPOPTS 和 IPV6_RTHDR 是 标志 
值 ， 用 于 请 求 经 由 辅助 数据 接收 相应 的 IPv6 扩 展 首部 。 


以 上 操作 的 详细 信息 参见 RFC 2292 [Stevens and Thomas 1998 | 
"BAD SIS ° 
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27.9 “小结 


在 10 个 已 定义 的 IPv4 选 项 中 最 常用 的 是 源 路 径 选项 ， 不 过 出 于 安 
全 考虑 ， 它 的 使 用 正在 日 益 蓉 缩 。IPv4 首 部 中 选项 的 访问 通过 
IP_0PTIONS 套 接 字 选项 完成 。 


IPv6 定 义 了 6 个 扩展 首部 ， 不 过 对 它们 的 支持 至 今 依 然 鲜 见 。IPv6 
扩展 首部 的 访问 通过 函数 接口 完成 ， 因 而 无 需 了 解 它们 出 现在 分 组 中 
的 真实 格式 。 这 些 扩展 首部 作为 辅助 数据 经 调用 sendmsg 发 送 ， 又 作 
为 辅助 数据 由 recvmsg 调 用 返回 。 


习题 


27.1 在 27.3 广 末尾 的 IPv4 源 路 径 例 子 中 ， 如 有 果 我 们 指定 -6 选项 
而 不 是 -g 选 项 ， 将 有 什么 变化 ? 


272 ”调用 setsockopt 设 置 TP_OPTIONS 套 接 字 选项 时 所 指定 
的 缓冲 区 长 度 必须 是 4 字 节 的 倍数 。 如 果 我 们 没有 像 图 27-1 所 示 的 那样 
在 缓冲 区 开始 处 安置 一 个 NOP， 那 么 该 怎么 办 ? 


27.3” 当 使 用 IP 记 了 杂 路 人 径 (Record Route) 选项 时 (在 TCPV1 的 7.3 
TH) ，ping 程 序 如 何 接收 源 路 径 ? 


27.4 在 27.3 节 未 尾 给 出 的 出 自 rlogind 服 务 器 程序 用 于 清除 接 
收 源 路 径 的 示例 代码 中 ， 为 什么 getsockopt 和 setsockopt 的 套 接 
字 描 述 符 参数 为 09 


27.5 “27.3 贡 末尾 给 出 的 用 于 清除 接收 源 路 径 的 代码 曾经 有 很 多 年 
大 体 如 下 : 


optsize = 0; 


setsockopt(0, IPPROTO IP, IP OPTIONS, NULL, &optsize); 
这 段 代 码 有 什么 差错 ? 是 否 要 紧 ? 
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@ 许 多 源 目 Berkeley 的 内 核 在 为 原始 IP 套 接 字 调用 getsockopt 和 
setsockopth} RÆ Rii (panic， 即 系统 停机 ) 。 普 通用 户 无 法 使 用 
该 手段 攻击 系统 ， 因 为 创建 原始 IP 套 接 字 要 求 具备 超级 用 户 权 限 ， 而 
超级 用 户 权 限 的 拥有 者 本 来 就 可 以 对 系统 进行 更 为 恶意 的 活动 。 


@ 注 意 区 分 源 路 径 (source route) 和 源 路 由 (source routing 或 source 

routed) 两 词 。 源 路 由 指 的 是 给 一 个 IP 数 据 报 添 置 一 个 SSR 选 项 的 行为 
(source routing) ， 或 者 是 一 个 IP 数 据 报 拥有 一 个 SSR 选 项 的 状态 
(source routed) 译 者 注 


@offset 参 数 指定 开始 搜索 位 置 的 偏 移 量 。 如 果 找 到 指定 类 型 的 选 
项 ， 那 就 在 参数 lenp 和 databufp 中 返回 该 选项 的 长 度 和 值 ， 并 以 下 
ao (可 能 是 选 项 扩展 首部 的 末尾 ) AS RES EEA ES CH E] 


@ 这 上 段 文字 由 译 者 整理 。 第 2 版 使 用 的 是 现 已 被 淘汰 的 API 

(IPV6_PKTOPTIONS 套 接 字 选项 ) ， 第 3 版 新 作者 又 没有 理解 
Stevens 区 分 了 获取 (retrieving) 和 接收 (receiving) 两 词 的 含义 ， 所 
语 与 Stevens 完 生 大 相 径 庭 。 第 3 版 原文 仅 一 句 “There is no way to 
retrieve options received via TCP since there is no relationship between 
received packets and user receive operations” ° RAL 


第 28 章 ”原始 套 接 字 


28.1 ut 


o 
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原始 套 接 字 提供 普通 的 TCP 和 UDP 套 接 字 所 不 提供 的 以 下 3 个 能 


有 了 原始 套 接 字 ， 进 程 可 以 读 与 写 ICMPv4、IGMPv4 和 ICMPv6 等 
分 组 。 举 例 来 说 ，ping 程 序 就 使 用 原始 套 接 字 发 送 ICMP 回 映 请 
求 并 接收 ICMP 回 射 应 答 。 (我 们 将 在 28.5 节 自行 开发 ping 程 序 
的 一 个 版 本 。) 多 播 路 由 守护 程序 mrouted 也 使 用 原始 套 接 字 发 
送 和 接收 IGMPv4 分 组 。 

这 个 能 力 还 使 得 使 用 ICMP 或 IGMP 构 筑 的 应 用 程序 能 够 完全 作为 
用 户 进 程 处 理 ， 而 不 必 往 内 核 中 额外 添加 编码 。 举 例 来 说 ， 路 由 
器 发 现 守护 程序 (在 Solaris 2.x 上 名 为 ijn .rdisc，TCPv1 附 邓 F 讲 
解 如 何 获取 它 的 一 个 公开 可 得 版 本 的 源 代 码 ) 就 是 如 此 构筑 的 。 
eee (路 由 器 通告 和 路 由 
2&1 The o 
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据 报 。 回 顾 图 A-1 所 示 的 8 位 IPv4 协 议 字段 。 大 多 数 内 核 仅 仅 处 理 
该 字段 值 为 1 (ICMP) ^2 (IGMP) 、6 (TCP) 和 17 (UDP) 的 
数据 报 。 然 而 为 协议 字段 定义 的 值 还 有 不 少 : IANA 的 “Protocol 
Numbers” 注 册 处 列 出 了 所 有 取 值 。 举 例 来 说 ，OSPF 路 由 协议 既 不 
使 用 TCP 也 不 使 用 UDP， 而 是 通过 收发 协议 字段 为 89 的 卫 数 据 报 
而 直接 使 用 IP。 实 现 OSPF 的 gated 守 护 程序 必须 使 用 原始 套 接 字 
读 与 写 这 些 IP 数 据 报 ， 因 为 内 核 不 知道 如 何 处 理 协 议 字段 值 为 89 
的 IPv4 数 据 报 。 这 个 能 力 还 延续 到 IPv6。 


有 了 原始 套 接 字 ， 进 程 还 可 以 使 用 IP_HDRINCL 套 接 字 选项 目 行 
构造 IPv4 首 部 。 这 个 能 力 可 用 于 构造 壁 如 说 TCP 或 UDP 分 组 ， 我 
们 将 在 29.7 节 给 出 这 样 的 一 个 例子 。 


本 章 介 绍 了 原始 套 接 字 的 创建 、 输 入 和 输出 。 我 们 还 将 开发 在 
IPv4 和 IPv6 环 境 下 均 可 使 用 的 ping 和 traceroute 程 序 。 


28.2 原始 套 接 字 创 建 


创建 一 个 原始 套 接 字 涉 及 如 下 步骤 。 
(1) 把 第 二 个 参数 指定 为 SOCK_RAw 并 调用 socket 画 数 ， 以 创建 


一 个 原始 套 接 字 。 第 三 个 参数 (协议 ) 通常 不 为 0。 举 例 来 说 ， 我 们 使 
用 如 下 代码 创建 一 个 IPv4 原 始 套 接 字 : 


int sockfd; 
sockfd = socket(AF_INET, SOCK_RAW, protocol); 


其 中 protocol 参 数 是 形 如 IPPROTO_xxx 的 某 个 常 值 ， 定 义 在 
<netinet/in.,h> 头 文件 中 ， 如 IPPROTO_IGMP。® 


只 有 超级 用 户 才 能 创建 原始 套 接 字 ， 这 么 做 可 防止 普通 用 户 往 网 
络 写 出 它们 目 行 构造 的 IP 数 据 报 。 


(2) 可 以 在 这 个 原始 套 接 字 上 按 以 下 方式 开局 IP_HDRINCL 套 接 字 
选项 : 


const int on = 1; 


if (setsockopt(sockfd, IPPROTO_IP, IP_HDRINCL, &on, sizeof(on)) < 


0) 
出 错 处 理 


我 们 将 在 下 一 下 讲 解 本 套 搂 字 选 项 的 效用 。 


(3) 可 以 在 这 个 原始 僚 接 字 上 调用 bind 函 数 ， 不 过 比较 少见 。 
bind 函 数 仅仅 设置 本 地 地 址 ， 因 为 原始 套 接 字 不 存在 端口 号 的 概念 。 
吕 输 出 而 言 ， 调 用 bind 设 置 的 是 将 用 于 从 这 个 原始 套 接 字 发 送 的 所 有 
数据 报 的 源 卫 地址 〈 只 在 IP_HDRINCL 套 接 字 选项 未 开启 的 前 提 
PO 。 如 采 不 调用 bind， 内 核 融 把 源 耻 地 址 设置 为 外 出 接口 的 主 卫 地 
Uk o 


(4) 可 以 在 这 个 原始 套 接 字 上 调用 connect 函 数 ， 不 过 也 比较 少 
见 。connect 函 数 仅 仅 设置 外 地 地 址 ， 同 样 因 为 原始 套 接 字 不 存在 端 
口号 的 概念 。 就 输出 而 言 ， 调 用 connect 之 后 我 们 可 以 把 sendto 调 
用 改 为 write 或 send 调 用 ， 因 为 目的 IP 地 址 已 经 指定 了 。 
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28.3 ”原始 套 接 字 输出 


原始 套 接 字 的 输出 遵循 以 下 规则 。 


。 普通 输出 通过 调用 sendto 或 sendmsg 并 指定 目的 IP 地 址 完成 。 
如 果 套 接 字 已 经 连接 ， 那 么 也 可 以 调用 write、writev 或 
send ° 

如 果 IP_HDRINCL 往 接 字 选项 未 开局 ， 那 么 由 进程 让 内 核发 送 的 
数据 的 起 始 地 址 指 的 是 IP 首 部 之 后 的 第 一 个 字 节 ， 因 为 内 核 将 构 
造 IP 首 部 并 把 它 置 于 来 自 进程 的 数据 之 前 。 内 核 把 所 构造 ITPv4 首 
部 的 协议 字段 设置 成 来 自 socket 调 用 的 第 三 个 参数 。 

如 果 IP_HDRINCL 套 接 字 选项 已 开启， 那么 由 进程 让 内 核发 送 的 
数据 的 起 始 地 址 指 的 是 了 首部 的 第 一 个 字 节 。 进 程 调用 输出 函数 
写 出 的 数据 量 必 须 包 括 卫 首部 的 大 小 。 整 个 IP 首 部 由 进程 构造 ， 
不 过 (a) IPv4 标 识字 段 可 置 为 0， 从 而 告知 内 核 设置 该 值 ， (b) 
IPv4 首 部 校 验 和 字段 总 是 由 内 核 计算 并 存储 ，(c) IPv4 选 项 字段 
是 可 选 的 。 


。 内 核 会 对 超出 外 出 接口 MTU 的 原始 分 组 执行 分 片 。 


原始 套 接 字 在 文档 中 被 描述 为 如 果 它 处 于 内 核 中 ， 那 么 就 为 协议 
所 拥有 的 原始 套 接 字 提 供 同 样 的 接口 。[McKusick et al.1996 3444) 
是 ， 这 表示 某 些 API 是 依赖 于 操作 系统 内 核 的 ， 尤 其 是 和 IP 首 部 字段 的 
字 世 序 有 关 。 在 许多 源 目 Berkeley 的 内 核 上 ， 除 了 ip_len 和 ip_off 
采用 主机 字 节 序 外 ， 其 他 字段 都 采用 网 络 字 节 序 (TCPv2 第 233 页 和 第 
1057 页 ) 。 然 而 在 Linux 和 OpenBSD 上 ， 上 所 有 字段 都 采用 网 络 字 节 序 。 


IP_HDRINCL 套 接 字 选项 随 4.3BSD Reno 引 入 。 在 此 之 前 ， 应 用 
进程 为 通过 某 个 原始 套 接 字 发 送 的 分 组 自行 指定 IP 首 部 的 唯一 手段 是 
应 用 由 Van Jacobson 为 支持 traceroute 而 于 1988 年 给 出 的 一 个 内 核 补 
丁 。 该 补丁 要 求 应 用 进程 指定 协议 参数 为 IPPROTO_RAW 调 用 socket 
创建 一 个 原始 IP 套 接 字 。IPPROTO_RAW 的 值 为 255， 它 是 一 个 保留 
值 ， 从 不 允许 作为 IP 首 部 中 的 协议 字段 出 现 。 


在 原始 套 接 字 上 执行 输入 和 输出 的 函数 属于 内 核 中 最 简单 的 一 些 
函数 。 举 例 来 说 ， 在 TCPv2 中 ， 原 始 余 接 字 上 的 输入 和 输出 函数 各 目 


约 需 40 行 C 代 码 (第 1054~1057 页 ) ， 而 TCP 输 入 函数 约 需 2000 行 ， 
TCP 输 出 函数 约 需 700 行 。 


我 们 束 IP_HDRINCL 套 接 字 选项 的 讲解 针对 的 是 4.4BSD。 更 早 的 
版 本 (例如 Net/2) 在 开启 该 选项 之 后 会 由 内 核 在 IP 首 部 中 填写 更 多 的 
字段 。 


对 于 IPv4， 计 算 并 设置 IPv4 首 部 之 后 所 含 的 任何 首部 校 验 和 是 用 
户 进程 的 责任 。 举 例 来 说 ， 在 我 们 的 ping 程 序 中 (图 28-14) ， 我 们 
必须 在 调用 sendto 之 前 计算 ICMPv4 校 验 和 并 将 它 存 入 ICMPv4 首 部 。 
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28.3.1 IPv6 的 差异 


oe ee 比 存在 如 下 差异 (REC 3542 [Stevens et 
al. 2003| ) 。 


。 通过 IPv6 原 始 套 接 字 发 送 和 接收 的 协议 首部 中 的 所 有 字段 均 采用 
网 络 字 节 序 。 

。 JIPv6 不 存在 与 IPv4 的 ITP_HDRINCL 套 接 字 选项 类 似 的 东西 。 通 过 
IPv6 原 始 套 接 字 无 法 读 入 或 写 出 完整 的 IPv6 分 组 (包括 IPv6 首 部 
和 任何 扩展 首部 ) 。IPv6 首 部 的 几乎 所 有 字段 以 及 所 有 扩展 首部 
都 可 以 通过 套 接 字 选 项 或 辅助 数据 由 应 用 进程 指定 或 获取 (见习 
题 28.1) 。 如 果 应 用 进程 需要 读 入 或 写 出 完整 的 IPv6 数 据 报 ， 那 
就 必须 使 用 数据 链 路 访问 (第 29 章 ) 。 

© IPv6 原 始 套 接 字 的 校 验 和 处 理 存 在 差异 ， 我 们 马上 就 讲解 。 


28.3.2 IPV6 CHECKSUM 套 接 字 选 项 


对 于 ICMPv6 原 始 余 接 字 ， 内 核 总 是 计算 并 存储 ICMPv6 首 部 中 的 
校 验 和 。 这 一 点 不 同 于 ICMPv4 原 始 套 接 字 ， 也 就 是 说 ICMPv4 首 部 中 
的 校 验 和 必须 由 应 用 进程 自行 计算 并 存储 (比较 图 28-14 和 图 28- 

16) 。 尽 管 ICMPv4 和 ICMPv6 都 要 求 发 送 者 计算 校 验 和 ，ICMPv6 却 在 
其 校 验 和 中 包括 一 个 伪 首 部 (pseudoheader) (我 们 将 在 图 29-14 中 计 
算 UDP 校 验 和 时 讨论 伪 首 部 的 概念 ) 。 该 俯首 部 中 的 字段 之 一 是 源 


IPV6 地 址 ， 而 应 用 进程 通常 让 内 核 选择 其 值 。 与 其 让 应 用 进程 束 为 了 
计算 校 验 和 而 不 得 不 试图 目 行 选择 这 个 地 址 ， 还 不 如 由 内 核 计算 校 验 
和 来 得 更 为 容易 。 


对 于 其 他 IPv6 原 始 套 接 字 (不 是 以 IPPROTO_ICMPV6 为 第 三 个 参 
数 调用 socket 创 建 的 那些 原始 套 接 字 ) ， 进 程 可 以 使 用 一 个 套 接 字 
选项 告知 内 核 是 否 计算 并 存储 外 出 分 组 中 的 校 验 和 ， 且 验证 接收 分 组 
中 的 校 验 和 。 该 选项 默认 情况 下 是 禁止 的 ， 不 过 把 它 的 值 设置 为 某 个 
韭 负 值 就 可 以 开启 该 选项 ， 例 如 如 下 代码 : 


int offset = 2; 


if (setsockopt(sockfd, IPPROTO_IPV6, IPV6_CHECKSUM, 


&offset, sizeof(offset)) < 0) 


出 错 处 理 


这 上 段 代 码 不 仅 开 启 指 定 套 接 字 上 的 校 验 和 ， 而 且 告 知 内 核 这 个 16 
位 的 校 验 和 子 段 的 字 节 偏 移 量 ， 本 例 中 为 目 应 用 数据 开始 处 起 偏 移 2 个 
字 节 。 蔡 止 该 选项 要 求 把 这 个 偏 移 量 设置 为 -1。 一旦 开局 ， 内 核 将 为 
在 指定 套 接 了 字 上 发 送 的 外 出 分 组 计算 并 存储 校 验 和 和， 并且 为 在 该 套 接 
字 接 收 的 外 来 分 组 验证 校 验 和 。 
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28.4 ”原始 套 接 字 输入 


忠 原 始 套 接 字 的 输入 我 们 必须 首先 回答 的 问题 是 ， 内 核 把 哪些 接 
收 到 的 IP 数 据 报 传递 到 原始 套 接 子 ? 这 儿 遵循 如 下 规则 。 


。 接收 到 的 UDP 分 组 和 TCP 分 组 绝 不 传递 到 任何 原始 套 接 字 。 如 果 
一 个 进程 想 要 读 取 含有 UDP 分 组 或 TCP 分 组 的 卫 数 据 报 ， 它 就 必 
须 在 数据 链 路 层 读 取 这 些 分 组 (第 29 章 ) 。 

大 多 数 ICMP 分 组 在 内 核 处 理 完 其 中 的 ICMP 消 息 后 传递 到 原始 套 
接 字 。 源 自 Berkeley 的 实现 把 不 是 回 射 请 求 、 时 间 惟 请 求 或 地 址 
掩 码 请 求 (这 三 类 ICMP 消 息 全 由 内 核 处 理 ) 的 所 有 接收 到 的 
ICMP 分 组 传递 给 原始 套 接 字 (TCPvV2 第 302~303 页 ) ° 
Ce 
ZF o 


内 核 不 认识 其 协议 字段 的 所 有 IP 数 据 报 传递 到 原始 套 接 字 。 内 核 
对 这 些 分 组 执行 的 唯一 处 理 是 针对 某 些 IP 首 部 字段 的 最 小 验证 : 
IP 版 本 、IPv4 首 部 校 验 和 、 首 部 长 度 以 及 目的 IP 地 址 (TCPv2*8 
213~220 页 ) 。 

如 果 某 个 数据 报 以 片段 形式 到 达 ， 那 么 在 它 的 所 有 片段 均 到 达 且 
重组 出 该 数据 报 之 前 ， 不 传递 任何 片段 分 组 到 原始 套 接 字 © 


当 内 核 有 一 个 需 传 递 到 原始 套 接 字 的 IP 数 据 报 时 ， 它 将 检查 所 有 
进程 上 的 所 有 原始 套 接 字 ， 以 寻找 所 有 匹配 的 套 接 字 。 每 个 匹配 的 套 
接 字 将 被 递送 以 该 PP 数据 报 的 一 个 副本 。 内 核对 每 个 原始 套 接 字 均 执 
行 如 下 3 个 测试 ， 只 有 这 3 个 测试 结果 均 为 真 ， 内 核 才 把 接收 到 的 数据 
报 递 送 到 这 个 套 接 字 。 


。 如 果 创 建 这 个 原始 套 接 字 时 指定 了 非 0 的 协议 参数 (socket 的 第 
三 个 参数 ) ， 那 么 接收 到 的 数据 报 的 协议 字段 必须 匹配 该 值 ， 否 
则 该 数据 报 不 递送 到 这 个 套 接 字 。 

。 如 果 这 个 原始 套 接 字 已 由 bind 调 用 绑 定 了 某 个 本 地 IP 地 址 ， 那 么 
接收 到 的 数据 报 的 目的 了 地址 必须 匹配 这 个 绑 定 地 址 ， 否 则 该 数 
据 报 不 递送 到 这 个 套 接 字 。 

e 如 果 这 个 原始 套 接 字 已 由 connect 调 用 指定 了 某 个 外 地 IP 地 址 ， 
那么 接收 到 的 数据 报 的 源 IP 地 址 必须 匹配 这 个 已 连接 地 址 ， 否 则 


该 数据 报 不 递送 到 这 个 套 接 字 。 


注意 ， 如 果 一 个 原始 套 接 字 是 以 0 值 协 议 参数 创建 的 ， 而 且 既 未 对 
它 调 用 过 bind， 也 未 对 它 调 用 过 connect ， 那 么 该 套 接 字 将 接收 可 
由 内 核 传 递 到 原始 套 接 字 的 每 个 原始 数据 报 的 一 个 副本 。 


无 论 何 时 往 一 个 原始 IPv4 套 接 字 递送 一 个 接收 到 的 数据 报 ， 传 递 
到 该 套 接 字 所 在 进程 的 都 是 包括 IP 首 部 在 内 的 完整 数据 报 。 然 而 对 于 
原始 IPv6 套 接 字 ， 传 递 到 套 接 字 的 只 是 扣除 了 IPv6 首 部 和 所 有 扩展 首 
MBA (payload) (例如 图 28-11 和 图 28-22) ° 
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在 传递 给 应 用 进程 的 IPv4 首 部 中 ，ip_len、ip_off 和 ip_id 采 
用 主机 字 节 序 ， 其 中 ip_len 是 扣除 IP 首 部 (包括 IP 选 项 字段 ) 的 净 葆 
长 度 ， 其 余 字 段 则 采用 网 络 字 和 序 。 在 Linux 上 上 所 有 字段 均 保 持原 本 的 
网 络 字 节 序 不 变 。 


正如 早先 所 提 ， 定 义 原 始 套 接 字 的 目的 在 于 提供 一 个 访问 某 个 协 
议 的 接口 ， 就 像 该 协议 在 内 核 中 提供 了 这 个 接口 那样 ， 因 此 这 些 字段 
的 内 容 取 决 于 OS 内 核 。 


我 们 在 上 一 节 提 到 过 ， 在 原始 IPv6 套 接 字 上 收取 的 数据 报 中 所 有 
字段 均 保 持原 本 的 网 络 字 市 序 不 变 。 


ICMPv6R HWE 


原始 ICMPv4 套 接 字 被 递送 以 由 内 核 接 收 的 大 多 数 ICMPv4 消 息 。 
然而 ICMPv6 在 功用 上 是 ICMPv4 的 超 集 ， 它 把 ARP 和 IGMP (2.277) 
的 功能 也 包括 在 内 。 因 此 相 比 原始 ICMPv4 套 接 字 ， 原 始 ICMPv6 套 接 
字 有 可 能 收取 多 得 多 的 分 组 。 可 是 使 用 原始 套 接 字 的 应 用 程序 大 多 数 
仅仅 关注 所 有 ICMP 消 息 的 某 个 小 子 集 。 


为 了 缩减 由 内 核 通 过 原始 ICMPv6 套 接 字 传 递 到 应 用 进程 的 分 组 数 
量 ， 应 用 进程 可 以 自行 提供 一 个 过 滤器 。 原 始 ICMPv6 套 接 字 上 的 过 滤 
器 使 用 定义 在 <netinet/icmp6.h> 头 文件 中 的 数据 类 型 struct 
icmp6_filter 声 明 ， 并 使 用 level 参 数 为 TPPROTO_ICMPV6 有 是 


optname 人 参数 为 ICMP6_FILTER 的 setsockopt 和 getsockopt 调 用 
来 设置 和 获取 © 


以 下 6 个 宏 用 于 操作 icmp6_filter 结 构 。 


#include <netinet/icmp6.h> 

void ICMP6 FILTER SETPASSALL(struct icmp6 filter *filt); 

void ICMP6 FILTER SETBLOCKALL(struct icmpo filter *filt); 

void ICMP6 FILTER SETPASS(int msgtype, struct icmpo filter *filt); 
void ICMP6 FILTER SETBLOCK(int msgtype, struct icmp6 filter 
*filt); 


int ICMP6_FILTER_WILLPASS(int msgtype, const struct icmp6_filter 
*filt); 
int ICMP6_FILTER_WILLBLOCK(int msgtype, const struct icmp6_filter 
*filt); 


均 返 回 : 着 过 滤器 放行 (或 阻止 ， 给 定 消息 类 型 


则 为 1， 否 则 为 9 


所 有 这 些 宏 中 的 /it 参数 是 指向 某 个 icmp6_filter 变 量 的 一 个 指 
针 ， 其 中 前 4 个 宏 修改 该 变量 ， 后 2 个 宏 查看 该 变量 。msgtype 参 数 在 
0~255 之 间 取 值 ， 指 定 ICMP 消 息 类 型 。 


SETPASSALL 宏 指定 所 有 消息 类 型 都 传递 到 应 用 进程 ， 
SETBLOCKALL 宏 则 指定 不 传递 任何 消息 类 型 。 作 为 默认 设置 ， 任 一 
应 用 进程 一 旦 创建 一 个 ICMPv6 原 始 套 接 字 ， 所 有 ICMPvV6 消 息 类 型 都 
允许 通过 该 套 接 字 传递 到 该 应 用 进程 。 


SETPASS 宏 放行 某 个 指定 消息 类 型 到 应 用 进程 的 传递 ， 
SETBLOCK 宏 则 阻止 某 个 指定 消息 类 型 的 传递 。 如 果 指 定 消息 类 型 被 
过 滤器 放行 ，WILLPASS 宏 就 返回 1， 否 则 返回 9， 如果 指 定 消息 类 型 
被 过 滤器 阻止 ，WILLBLOCK 宏 就 返回 1， 否 则 返回 0。 
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作为 一 个 例子 ， 考 虑 只 想 接收 ICMPv6 路 由 器 通告 消息 的 某 个 应 用 
程序 的 如 下 代码 片段 。 


struct icmp6 filter myfilt; 


fd = Socket(AF INET6, SOCK RAW, IPPROTO ICMPV6); 


ICMP6_FILTER_SETBLOCKALL (&myfilt); 
ICMP6_FILTER_SETPASS(ND_ROUTER_ADVERT, &myfilt); 
Setsockopt(fd, IPPROTO_ICMPV6, ICMP6_FILTER, &myfilt, 
sizeof(myfilt)); 


本 例子 首先 阻止 所 有 消息 类 型 的 传递 (因为 默认 设置 是 传递 所 有 
消息 类 型 ) ， 然 后 只 放行 路 由 器 通告 消息 的 传递 。 尽 管 如 此 设置 了 过 
滤器 ， 该 应 用 仍 得 做 好 会 收 到 所 有 消息 类 型 的 准备 ， 因 为 在 socket 
和 setsockopt 这 两 个 调用 之 间 到 达 的 任何 ICMPv6 消 居 将 被 添加 a 到 接 
收 队 列 中 。ICMP6_FILTER 套 接 字 选 项 仅仅 是 一 个 优化 措施 。 


28.5 “ping 程 序 


我 们 在 本 节 开 发 一 个 同时 支持 IPv4 和 IPv6 的 ping 程 序 版 本 。 我 们 
自行 开发 这 个 程序 而 不 直接 提供 它 的 公开 可 得 版 本 源 代码 的 理由 有 两 
个 。 首 先 ， 公 开 可 得 的 ping 程 序 犯 有 被 称 为 特性 蔓延 (creeping 
featurism) 的 一 个 编程 通病 : 它 支 持 多 个 不 同 的 选项 。 我 们 查看 ping 
程序 的 目的 是 了 解 网 络 编程 概念 和 技巧 ， 而 不 应 该 被 众多 的 选项 分 散 
了 注意 力 。 我 们 的 ping 程 序 版 本 仅仅 支持 一 个 选项 ， 篇 幅 约 为 公开 可 
得 版 本 的 五 分 之 一 。 其 次 ， 公 开 可 得 版 本 仅仅 支持 IPv4， 而 我 们 希望 
展示 一 个 也 支持 IPv6 的 版 本 。 


ping 程 序 的 操作 非常 帘 单 ， 往 某 个 了 地址 发 送 一 个 ICMP 回 映 请 
求 ， 该 和 点 则 以 一 个 ICMP 回 射 应 答 啊 应 。IPv4 和 IPv6 都 支持 这 两 种 
ICMP 消 轧 。 图 28-1 展 示 了 ICMP 消 息 的 格式 。 


类 型 代码 Mug Al | 
sy 
标识 符 序列 号 i 
=| 


图 28-1 ICMPv4 和 ICMPV6 回 射 请 求 和 回 射 应 答 消 息 的 格式 


图 A-15 和 图 A-16 给 出 了 这 些 消息 的 类 型 (type) 值 ， 并 指出 它们 
的 代码 (code) 值 为 0。 在 我 们 的 ping 程 序 中 ， 我 们 把 标识 符 
(identifier) 设置 为 ping 进 程 的 进程 ID， 并 且 为 每 个 发 送出 去 的 分 组 
递增 序列 号 (sequence number) 。 我 们 还 以 可 选 数据 (optional data) 
的 形式 存放 分 组 发 送 时 刻 的 8 字 节 时 间 戳 。ICMP 规 则 要 求 在 回 射 应 答 
中 返回 来 自 回 射 请 求 的 标识 符 、 序 列 号 和 任何 可 选 数据 。 在 回 射 请 求 
中 存放 时 间 稚 使 得 我 们 可 以 在 收 到 回 射 应 答 时 计算 RTT。 


图 28-2 展 示 了 本 程序 的 两 个 运行 例子 : 第 一 个 使 用 IPv4， 第 二 
使 用 IPv6。 我 们 为 这 个 程序 的 可 执行 文件 设置 了 ey E 
性 ， 因 为 创建 原始 套 接 字 需要 超级 用 户 特权 。 


freebsd $ ping www.google.com 

PING www.gcogle.com (216.239.57.99): 55 data bytes 

64 bytes from 215.239,57,99: seq=0, ttl-53, rtt-5.Ecl. we 
64 bytes fran 214.229.57.93: sey=1, ttl=53, rtt-5.562 as 
64 bytes from 215.239.57.93. seq=2, ttl-53, rtt=5.589 rs 
64 bytes from 215.219.57.99: seqes, ttled2, rtte5.510 m5 


frcobsd $ ping www. kame.net 

PINS orange .kame.net (2001:209:0:4819:203:47ff:fea&:3085): 55 data bytes 

64 bytes from 2001-200:0;48°9:203;47ff:5ea5;2085: seq=0, hlimz52, rtt=422.066 ws 
64 bytes from 2001:200:0:4319:203:47££:5e85:2065; seq=1, hlim-52, rtt=417.396 ma 
64 bytes from 20721:200:0:4829:203;472f:2025:2085: seq=2, hlam=52, rtt=415.528 us 
64 bytes from 2021:200:0:43-:9:203:472f:28035:3085: seq=3, hlim=52, rtt-42:..92 ms 


图 28-2 ”ping 程 序 运 行 例子 输出 
图 28-3 是 构成 我 们 的 ping 程 序 的 各 个 函数 及 调用 关系 的 概貌 。 


ee ae ys IGALRMÉN vr. (7 57 Ab PE E E 
C main >—_— ——*K sig alrm 7 


-一 unm T 
readloon send v4 ) 
C dee UE ai 


` Pd 或 
P d C. send ve ^ P. 
p "x —— 


E recvfrom » e proc v4 d 


C proc v6 > 
TM E MS | ———— i 
ABC TE 经 秘 钟 发 送 一 个 区 射 请 求 


图 28-3 ”我 们 的 ping 程 序 中 各 个 函数 的 概貌 


程序 分 为 两 大 部 分 ， 一 部 分 在 一 个 原始 套 接 字 上 读 入 收 到 的 每 个 
1H, 显示 ICMP 回 射 应 科 答 ， 男 一 部 分 每 隔 一 秒 钟 发 送 一 个 ICMP 回 射 
请 求 。 第 二 部 分 由 SIGALRM 信 号 每 秒 钟 驱动 一 次 。 
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图 28-4 给 


出 了 所 有 程序 文件 都 包含 的 头 文 件 ping.h。 


pingping. A 
Fincluce "ur.p. h" 
2 finclu2e 4^nstinst/in systm.h» 
3 tincluze «nstinst/io.h» 
4 #incluce «nstinst/ip icmp.h- 
5 #defins BUFSIZE 1500 
é /* glorals */ 
7 char ser dbuf [BITRSTZX] : 
6 int datalen; /* # bytes of data following ICME header */ 
$ char *host : 
10 -nt risent + /* add 1 for each sendto!; */ 
ll pid t pic; /* our PID */ 
2 int sockfd, 
13 int verbose; 
14 /* function prototypes */ 
15 vaid init vf (void! ; 
16 void proc va[char +, ssize t, struct msghor *, struct timeval *]; 
17 void proc vS$[char +, coize t, struct meghcr *, struct timeval *]; 
18 void serd válvoid!; 
19 void serd vs [void!; 
c0 void readlocp(vczd); 
21 void sig elem(intl; 
22 void tv sub(scricc timeval *, struct rimeval *;; 
23 stroct proto [ 
24 ved (*fproc] (char *, ssize r, &s-rucr msghdr *, srrucr rimeva] 7); 
“5 void (*teens; (void): 
26 void (*f£init} (void); 
27 struct sovkacdr *sasersi; /* sockesdir(] far send, from getaddrinfa 4/ 
28 struct sockacdr  *B5arecv; /* eocksdor[) tor recoivinz */ 
23 sccklen_t salen; /* length of sockaddr{}s */ 
30 int icnpprotc; /* IPPRITO xxx value for ICME */ 
ai i tory 
32 ifdef TPV6 
33 fincludc «nctinct/io6.h» 
34 &imncixle emet inet /icompiá hs 
36 #ondif 
pingiping.h 


图 28-4 ping. hk of 


包含 ITPv4 和 ICMPv4 头 文件 


1-22 我 们 包含 基本 的 IPv4 和 ICMPv4 头 文件 ， 定 义 一 些 全 局 变 
量 以 及 各 个 函数 的 原型 。 


定义 proto 结 构 

23-31 我 们 使 用 proto 结 构 处 理 IPv4 与 IPv6 之 间 的 差异 。 这 个 
结构 包含 3 个 函数 指针 、2 个 套 接 字 地 址 结构 指针 、 这 2 个 套 接 字 地 址 结 
构 的 大 小 以 及 ICMP 的 协议 值 。 全 局 指针 变量 pr 将 指 癌 为 IPv4 或 I[PVv6 初 
人 化 的 某 个 proto 结 构 。 
743 
包含 ITPv6 和 ICMPv6 头 文件 


32-35 ”我们 包含 定义 IPv6 和 ICMPv6 结 构 和 常 值 的 2 个 头 文件 
(RFC 3542 [Stevens etal. 2003] ) œ 


main 函 数 如 图 28-5 所 示 。 


J 
下 


pingémain c 


1 Fiuclude * oim. h^ 

2 struct prate proto v4 = 

3 1 prec vé, send vd, NULL, NULL, NULL, 0, IPPRCTO ICM? |): 

å Rifcet  TPV6 

5 sleuct pro.coroubo vé = 

6 { prcc ve, send vs, init_vs, NULL, NULL, 0, IPPROTO ICMPVe }; 
7 Pencif 

8 int de.alen ~ 56: 7S data that goes with ICMP echo cequesl ^/ 
9 int 

10 rmin(int arge, char 4 *acqv) 

ll: 

12 int e; 

13 struct addrinto *5i; 

14 2har *h; 

15 on-zer- = 0; /* don't want geccpt() writing to atderr */ 
16 while | ic = getooc(asxgc, argv, "v")r t= -1) į 

17 switch (c) | 

18 casa 'vy': 

19 yverbose++; 

20 break; 

41 casa '?': 

22 orr_quit ("unrecognised opticn: $2", Cl; 

23 } 

? ) 

z5 it (eptind {= args 1! 

76 err_qvit |"usage: ping | -v J «hcstnames*!, 

27 hos. m argv [cpt od}; 

7a pid = getpid() & Dwtt*f, /* TOMP IT. field is 16 bits */ 
39 Sigral [STGATRM, sic alr); 

30 ^i s Host se-v[hos*, NULL, 5, 0j, 

31 h = £ock ntcp hoot (ai »aí addr, ai »ài addrlcn:; 

12 prirt ("PING && ($s): Xd data hytes\n", 

33 Ni- cAroTmAane 3 aj-sai_canenname : h, h, datalest; 
14 f* initialize aceardice to protacsal */ 

35 if (ni--nji Tam y =a AP TNRT) 

36 pr = &proto vd; 


37 #ifdef IPV 


38 ) elece if (ai-»ai family == AF_INETS) [ 

39 pr = &proto wá; 

40 if (ING_=25_ADDR_V4MAPPED [& í (struct sockaddr in6 ~”) 
41 ai--ai adir!-»s:n$ acdr))) 
42 err quit ("canpot ping IPvé-mapped I?v6 address*) ; 
43 feudii 

34 ) else 

as err_quit{*unknewn address family td", ai->ai_forily) ; 
36 Or->sasend - ai->ai_addr; 

37 pr-»carecv = Calloc(i, ai-»ci addrlcm!: 

4n Dr-»sAlen = Ai-»^i adde-len, 

39 rcaéloop!):; 

30 exíic(0); 

SL 


Aj28-5 main 函数 


pingimain c 


定义 IPv4 和 IPv6 的 proto 结 构 


2~7 为 IJPv4 和 IPv6 分 别 定义 一 个 proto 结 构 。 其 中 套 接 字 地 址 
结构 指针 成 员 均 初始 化 为 空 指 针 ， 因 为 我 们 还 不 知道 最 终 使 用 的 是 
IPv4 还 是 IPv6。 


可 选 数据 的 长 度 


8 把 随同 回 射 请 求 发 送 的 可 选 数据 量 设置 为 56 个 字 节 ， 由 此 产 
生 84 字 节 的 IPv4 数 据 报 (包括 20 字 节 IPv4 首 部 和 8 字 节 ICMP 首 部 ) 或 
104 字 节 的 IPv6 数 据 报 。 随 同 某 个 回 射 请 求 发 送 的 任何 数据 必须 在 对 应 
的 回 射 应 答 中 返 送 回来 。 我 们 将 在 这 个 数据 区 的 前 8 个 字 世 存放 本 回 射 
请 求 发 送 时 刻 的 时 间 戳 ， 然 后 在 收 到 对 应 的 回 射 应 答 之 时 使 用 返 送 回 
来 的 时 间 戳 计算 并 显示 RIT 。 


处 理 命令 行 选项 


15-29 ”本 程序 唯一 文 持 的 命令 行 选项 是 -v， 它 可 使 我 们 显示 接 
收 到 的 大 多 数 ICMP 消 思 。 (我 们 只 显示 属于 本 ping 进 程 的 ICMP 回 射 
应 答 。) 建立 SIGALRM 信 号 的 信号 处 理 函 数 ， 我 们 将 看 到 该 信号 一 经 
局 动 将 每 秒 钟 产生 一 次 ， 导 致 每 秒 钟 发送 一 个 ICMP 回 射 请 求 。 


处 理 主 机 名 参数 


30-48 ”在 命令 行 参数 中 必须 有 一 个 主机 名 或 1P 地 址 数 串 ， 我 们 
调用 host_serv 函 数 来 处 理 它 。 返 回 的 addrinfo 结 构 中 含有 协议 
Jk: 或 为 AF_INET， 或 为 AF_INET6。 据 此 初始 化 全 局 指针 变量 pr， 
让 它 指 问 正确 的 proto 结 构 。 我 们 还 调用 IN6_IS_ADDR_V4MAPPED 
确认 由 host_serv 返 回 的 IPv6 地 址 不 是 一 个 IPv4 映 射 的 IPv6 地 址 ， 
为 这 样 的 地 址 尽管 是 一 个 IPv6 地 址 ， 发 送 给 其 主机 的 却 是 IPv4 分 组 。 

(这 种 情况 下 我 们 可 以 直接 改 用 IPv4 地 址 。) 把 已 由 getaddrinfo 画 
数 分 配 的 套 接 字 地 址 结构 用 于 发 送 ， 并 另行 分 配 一 个 同样 大 小 的 套 接 
字 地 址 结构 用 于 接收 。 
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49 调用 read1loop 函 数 执行 处 理 。 该 函数 如 图 28-6 所 示 。 


ping/readioon.c 


1 #include "ping.h" 


J void 

3 readlocp(void) 

ai 

5 int size; 

6 char recvout|BUFSIZE]: 

7 char controlbuf [BUPSIZ=z] ; 

a struct msgndr wag; 

E] struct iovec icv; 

1c eeize t rj 

11 struct timeval tval; 

12 sockfd = Sccke-'pr-»sasenc-2sa family. SOCK_RAW, pr-»icmpprato!; 
13 setuid(gsta:di)): /* don't need special permissions any more */ 
14 a= (pr-»tin-t) 

15 (*or-»finit) (); 

16 size = 6C * 1024; /* OK if setsockopt fails */ 
u Beteockopt(soc«fd, SOL SOCKET, SO RCVBUF, &elze, gizeofiscize!); 
16 sig_#lrm(SIGALRM! ; J* seni firs- racket ^/ 

19 10v.10V bace = recvbut: 

20 iov.iov lea - sizeof (recvbuf) ; 

21 mag. msg rame = pr-»sarecv; 

22 msqy.msz iov = &iov; 

23 msagq.msc iov.on = 1; 

24 msg.msg -oatrol = controlbuf; 

25 for 4 2 2) { 

p msg.rsg namelen ~ pr--salen: 

25 re3.re&g controller = cizeof (corntrolbuf) ; 

26 2 = recvmsgisockf2, msg, 0); 

29 if in «€ 0) { 

30 if iərmo ==- EINTR) 

31 sontinuc; 

32 else 

33 err g&ym("rervmscz error’); 

34 ) 

35 Gettimeofday (&tval, NULL); 

36 (*ur-»fpruc)(re-vbuf, n, msg, &tval); 

37 } 

36 ) 


pingí/readioor.c 


图 28-6 read1loop 画 数 
创建 套 接 字 


12-13 创建 一 个 合适 协议 的 原始 套 接 字 。 调 用 setuid 把 进程 
的 有 效用 户 ID 设置 为 实际 用 户 ID， 适 用 于 本 程序 的 可 执行 文件 具有 
setuid 到 root 的 属性 且 以 普通 用 户 执行 它 的 情形 。 运 行 本 程序 的 进 
程 必须 拥有 超级 用 户 特权 才能 创建 原始 套 接 字 ， 不 过 既然 套 接 字 已 经 
建成 ， 该 进程 束 可 以 放弃 这 个 额外 特权 了 。 这 类 需要 短暂 拥有 额外 特 


权 的 程序 最 好 是 一 旦 不 再 需要 某 个 额外 特权 就 放弃 它 ， 以 防 程序 中 可 
能 光伏 的 缺陷 被 攻击 者 利用 。 


执行 特定 于 协议 的 初始 化 


14-15 ”如果 所 用 协议 有 一 个 初始 化 函数 ， 那 就 调用 它 。 我 们 将 
在 图 28-10 给 出 用 于 IPv6 的 初始 化 函数 。 


设置 套 接 字 接收 缓冲 区 的 大 小 


16-17 ”我 们 试图 把 套 接 字 接 收 缓冲 区 大 小 设置 为 61440 字 市 
(60x1024) ， 它 应 该 比 默认 设置 大 。 这 么 做 可 以 防备 用 户 对 IPv4 广 播 

地 址 或 某 个 多 播 地 址 执行 ping， 两 者 均 可 能 产生 大 量 的 应 答 。 套 接 字 
接收 缓冲 区 设置 得 越 大 ， 它 发 生 溢出 的 可 能 性 也 就 越 小 。 
发 送 第 一 个 分 组 

18 ”调用 SITGALRM 信 号 处 理 函 数 发 送 第 一 个 分 组 。 该 画 数 除 发 送 
一 个 分 组 外 ， 还 调度 下 一 个 STIGALRM 信 号 在 1 秒 钟 之 后 产生 。 如 此 直 
接 调 用 信号 处 理 函 数 并 不 常见 ， 不 过 可 以 接受 。 信 和 号 处 理 函 数 也 是 C 
函数 ， 尽 管 它们 通常 是 异步 调用 的 。 


为 recvmsg 设 置 msghdr 结 构 


19-24 设置 将 传递 给 recvmsg 的 msghdr 结 构 及 iovec 结 构 中 
的 恒定 成 员 。 
读 入 所 有 ICMP 消 息 的 无 限 循环 

25~37 本 程序 的 主 循环 是 一 个 无 限 循环 ， 它 读 入 返回 到 原始 
ICMP 套 接 字 的 每 个 分 组 。 我 们 调用 gettimeofday 记 录 分 组 收取 时 


刻 ， 然 后 调用 合适 的 协议 函数 (proc_v4etproc_v6) 处 理 包含 在 该 
分 组 中 的 ICMP 消 息 。 


图 28-7 给 出 了 tv_sub 画 数 ， 它 把 两 个 tijmeval 结 构 中 存放 的 时 
间 值 相 减 ， 并 把 结果 存 入 第 一 个 timeval 结 构 中 。 


lib/tv sub.c 


1 £irclYuce "ur p.h" 

2 void 

i tv oub(ctrücz timeval *cut, otruct timeval *in) 

4 ( 

3 if ( (out-stv_usee -= in-»tv ussc) z 0) 1 /* cut -- in */ 
€ --Qut-»tv sec; 

Yi out-2tv usec +- 1000000; 

R i 

9 Out-»2v sec -= in-»tv sec; 

10 ` 


libi sub.c 


图 28-7 tv subENZX: 两 个 timeval 结 构 相 减 
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图 28-8 给 出 了 proc_v4 函 数 ， 它 处 理 所 有 接收 到 的 ICMPvV4 消 息 。 
其 中 涉及 的 IPv4 首 部 格式 参见 图 A-1°。 另外 需 知道 ， 当 一 个 ICMPv4 消 
息 由 进程 在 原始 套 接 字 上 收取 上 时， 内核 已 经 证 实 它 的 IPv4 首 部 和 
ICMPv4 首 部 中 的 基本 字段 的 有 效 性 〈TCPv2 第 214~311 页 ) ° 


ping/roc vec 


1 #incluce "ping." 
2 void 
3 proc valchar *ptr, ssiza t len, struct megndr msg, struct tireval *tvreczv) 
4 1 
5 int hisni, icmplen; 
É dcuble rtt: 

structs ip ip; 
$ struct Lemp *:cmz; 
$ struct timeval *tvsend; 
10 ip = (struct ip *] pir; /* start n^ TP header ?/ 
1i hlenl = ip-sip hl << 2; /* length of IP hsader */ 
12 iE (ip--ip p !- IPERCTO ICMP; 
13 return; /* nct ICMP +% 
14 icrm = (s-ruct icum *) (pte + hleni); /* star- of ICMP header */ 
15 if ( (iecmpler - len - hlenl) < 8j 
16 rcturn; /* maltormed packct */ 
17 if (icmp--icmp_typ= == ICMP_ECHOREPLY) { 
18 i” (icmp-»icmp id I» pid) 
is return; /* nct a response tc our ECHO REQUEST */ 
20 ii [icmplen < 16) 
zi return; /* nct enough data zo use */ 
22 tveend = {struct timeval *) icmp-»icup data; 

tv sub(tvracy, tysend) ， 

z4 rtt = tvrccv-»z2v sec * 1000.0 4 tyrecv-»tv usec / LCOO.C; 


print=(*%d bytes from $5: soq-$u, ttletd, rtt-5.3f ms'n", 


26 icuplen, Sock ntop iosL(pr-»sarecv, pr-»salen), 
27 icmp-»icmp seg. ip-sip_ ttl, rttj; 

ug } else it (verbose) { 

29 printz(*' td bytes from $2. type = $c, code = td\n", 

30 icuplen, Sock ntop host(pr-»sarecv, pr-»salen), 
31 icup-»icmp type, icrp-»icmp cede): 

32 } 

33; 


pingproc wic 


图 28-8 proc v4ERXX: 处 理 所 接 收 的 ICMPv4 消 ， 
获取 ICMP 首 部 指针 
10-16 将 IPv4 首 部 长 度 字段 乘 以 4 得 出 IPv4 首 部 以 字 节 为 单位 的 
大 小 。 (IPv4 首 部 可 能 含有 选项 。) 我 们 据 此 把 icmp 设 置 成 指 问 
ICMP 首 部 的 开始 位 置 2 。 我 们 确定 IP 协 议 是 ICMP， 而 且 有 足够 的 回 射 


数据 来 查看 包含 在 回 射 请 求 中 的 时 间 礁 。 图 28-9 标 示 了 本 段 代码 所 用 
的 各 个 首部 、 指 针 和 长 度 。 
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èm 


len 
hleni icmplen 


ICMPv4 
n HW 
4 20 字 节 0-40 à R 


ip icmp 


IPv4 Pi AE IPv4 选 项 


ICMP ACHE 


图 28-9 ”处 理 ICMPv4 应 答 涉及 的 首部 、 指 针 和 长 度 
检查 ICMP 回 射 应 答 


17-21 ”如 采 所 处 理 的 消息 十 一 个 ICMP 回 里 应 管 ， 那 么 我 们 必须 
检查 标识 符 字 段 ， 判 定 该 应 答 是 否 啊 应 于 由 本 进程 发 出 的 请 求 。 如 采 
本 主机 上 同时 运行 着 多 个 ping 进 程 ， 那 么 每 个 进程 都 得 到 内 核 接 收 到 
的 所 有 ICMP 消 恩 的 一 个 副本 。 


22-27 ”通过 从 当前 时 间 (由 函数 参数 tvrecv 指 向 ) 减 去 消息 
发 送 时 间 (包含 在 ICMP 应 管 的 可 选 数据 部 分 中 ) ， 我 们 计算 出 RTT。 
把 RTT 从 微 秒 数 转换 成 晕 秒 数 之 后 ， 与 序列 号 字段 以 及 接收 TTL 一 道 
显示 和 输出。 序列 号 字段 使 得 用 户 能 够 查看 是 否 发 生 过 分 组 丢失 、 错 序 
或 重复 ， 接 收 TTL 则 给 出 两 个 彼此 通信 主机 之 间 步 跳 数 的 某 种 指示 。 


若 指 定 -v 则 显示 所 有 接收 ICMP 消 息 


28-32 如果 用 户 指定 了 -v (详尽 输出 ) 命令 行 选 项 ， 那 就 显示 
除 回 射 应 答 外 的 所 有 接收 ICMP 消 息 的 类 型 字段 和 代码 字段 。 


ICMPV6 消 息 的 处 理由 proc_v6 函 数 完成 ， 如 图 28-12 所 示 。 它 类 
似 于 proc_v4 函 数 ， 不 过 既然 IPv6 原 始 套 接 字 不 返回 IPvV6 首 部 ， 它 就 
以 辅助 数据 的 形式 接收 ICMPv6 分 组 的 跳 限 。 接 收 这 个 辅助 数据 要 求 预 
完 为 所 用 的 原始 套 接 字 开 启 相 天 套 接 字 选 项 ， 这 是 由 图 28-10 给 出 的 
init_v6 函 数 完成 的 。 


pingini! wc 


1 void 

2 init_vé() 
34 

4 #ifdef IFVG 


Lit Unsl 


E it (verboce == 0) { 

7 /* install a filter that cnly passes ICME6 ECHO REPLY unless verbose */ 
& struct icmcé filter myfilt; 

9 ICMPE FILTER SEZIBLOCKALL [irtyfilt) ; 

10 ICMPEe FILTER EZTDASS(ICMPS ZCHO REPLY, &mytilth; 

11 seLsockopt(sockfd, IPPROTO_IPV6, ICMP6 FILIES, &uyflilt, 

12 sizeofimy-ilic]); 

13 /* ignore error return; tne filter ie an optimization */ 

14 

15 /* ignore error returned below: we just won't receive the hop linit */ 
16 $ifdGef LPV€ RELCVHOELIMIT 

17 /* RFC 3542 */ 

14 set sockaps (snek^6, IPPROTO IPV6, IPU6 PSCVHOPLIMTT, Sexi, sizeof lor); 
19 false 

20 /* RFC 2292 */ 

21 tuo ckap-isockzd, IPPROTO IPV6, IPV6 HOPLIMIT, &on, sizeoticn!); 

22 #endif 

j fendif 

24 | 


pingini! v6.c 
图 28-10 init v6rxZi. 初始 化 原始 ICMPv6 套 接 字 


设置 ICMPv6 接 收 过 滤器 


6-14 ”如果 用 户 没 有 指定 -V 命 令 行 选项 ， 那 束 在 所 用 的 原始 
ICMPv6 套 接 字 上 安 厂 一 个 过 滤 磊 ， 阻 止 除 回 射 应 答 外 的 所 有 ICMPv6 
消 思 。 这 么 做 可 以 缩减 该 喜 接 字 上 收取 的 分 组 数 。 


请 求 TPV6_HOPLIMIT 辅 助 数据 


15-22 ”请求 随 外 来 分 组 收取 跳 限 的 API 发 生 过 变动 ， 不 过 新 旧 
两 个 版 本 都 通过 开启 某 个 套 接 字 选项 完成 。 我 们 首选 较 新 版 本 
(IPV6_RECVHOPLIMIT) ,但 如 果 没 有 定义 相应 常 值 就 可 以 尝试 旧 
版 本 (IPV6_HOPLIMIT) 。 我 们 不 检查 setsockopt 的 返回 值 ， 
为 是 否 接 收 跳 限 无 关 紧 要 。 
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proc_v6 画 数 (图 28-12) 处 理 外 来 分 组 


获取 ICMPv6 首 部 的 指针 

11-13 从 原始 ICMPv6 套 接 字 接收 的 仅仅 是 ICMPv6 首 部 。 (El 
顾 一 下 ， 由 IPv6 原 始 套 接 字 上 的 输入 操作 作为 普通 数据 返回 的 是 扣除 
了 IPv6 首 部 和 所 有 扩展 首部 的 净 荷 ，IPv6 首 部 中 的 字段 以 及 扩展 首部 
只 能 作为 附加 数据 返回 。) 图 28-11 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 


指针 和 长 度 。 
| len | 
ICMPv6 Pi 


4 8 学 市 
icmp6 
图 28-11 处理 ICMPv4 应 答 涉 及 的 首部 、 指 针 和 长 度 

检查 ICMP 回 射 应 答 

14-37 如果 所 处 理 的 ICMP 消 息 是 一 个 回 射 应 答 ， 那 就 检查 标识 
符 字 段 ， 判 定 它 是 不 是 给 本 进程 的 应 答 。 若 是 则 计算 RTT， 并 与 序列 
号 和 IPv6 跳 限 一 道 显 示 输 出 。 其 中 跳 限 来 自 于 IPV6_HOPLIMIT 辅 助 
数据 对 象 。 
750 
车 指定 -v 则 显示 所 有 接收 ICMP 消 息 


38-41 如果 用 户 指定 了 -v (详尽 输出 ) 命令 行 选 项 ， 那 就 显示 
除 回 射 应答 外 所 有 接收 到 的 ICMP 消 息 的 类 型 字段 和 代码 字段 。 


pine/proc_vé.c 


1 include "ping.h" 

2 void 

3 prec_v6ichar *prr, ssize t len, struct mwsghzr *msg, struct tineval* tvrecv! 
a { 

5 Hifdef  IPV6 

5 ouble rtt; 

7 Etruct icnpe hár*icmpt; 

B struct tineval *tvssnz; 

9 struct crsghür *cmsG; 

Lọ int hlim; 

11 icnp6 = (struct icwpé_hdr *! ptr; 

12 if (len = 8) 

43 return: /* malformed racket */ 

14 if (icrpS-»icmp6 tyie == ICMPO ECHO REFLY) { 

is if iLomps-siewps id !- pid) 

1€ return; /* not a response to our ECHO REQUEST */ 
17 if ilen < 16) 

15 return: /* not enough data co uss */ 
1e z-vaend = (struct timevel *) (iompé + 1); 

20 -v sub(tvrecv, cvsend); 

21 rtt = twr26v »tv 360 * LCOC.U0 + tvrecv »tv 3526 / 1000.0; 
22 hlim = -1; 

23 tor (cmog = CMEC FIRSTHDR [msg]; cmog != NULL; 

24 cmsg = CMSG NXTHDR(msz, cwsg)! | 

25 if icmsg-scmsg level == IPFROTO IPVE 

2€ && emoq-»cmoq type ==- IPV6 HOPLIMIT) { 

7 hlim = *{u_int32_t *)CMS3_CATA(cmsg) ; 

2E break; 

29 ] 

30 } 

31 printf ("ṣi bytes from ts: seg-tu, hlim-", 

32 len, Sock_ntop_host (pr »carccv, pr->sa.cn) ,icmp6 >icmps_seq); 
33 if thlim == -1} 

34 printf ("?2?"); /* ancillary daca missing */ 
35 else 

3€ printf("$2", hlim); 

35 princf(", rct-*.3f ms\n", rtc]; 

3€ ) else iE (verbose) 

EL princf(" Ad bytes from $s: type = 4d, code = d\n", 
40 len, Sock nzop host (pr->sarecv, pr->salen), 
41 icwp6 >icnmps_type, icmeé->icemps_codc} ; 

42 } 

43 ferdif  /* isVe */ 

44 ) 


pincproc vée 


图 28-12 proc v6/EZi: 处 理 所 接 收 的 ICMPv6 消 息 
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$i lJSIGALRMÍS Sh SCE sig alrmbÉxZ&, 4lÉd28-13PT 
7R * Xi IE 28-68 JreadloopERZ& Hp — SLVR FEVER AC IK, M 


而 发 送出 第 一 个 分 组 。 该 函数 仅仅 调用 协议 相关 的 函数 发 送 一 个 ICMP 
回 射 请 求 (send_v4 或 send_v6) ， 然 后 调度 下 一 个 STGALRM 在 1 秒 
钟 之 后 产生 。 


piag/sig alrm.c 


7 Boro Leder "ping h* 
z void 

3 sig _almlint signa) 

4 

5 


,*pr-»fcend! (i; 


É alarm! ; 
j return; 
E) 


piaysig alrm.c 


图 28-13 sig_alrm 函 数 : SIGALRM 信 号 处 理 函 数 


4128-1424 HA send_v4 Nati — TICMPVv4iel Wig SKTB BIE 
它 写 出 到 原始 套 接 字 。 


pingsend_W.c 


1 #incluce "ping .h* 

2 void 

3 gend vå (void) 

4 

g int leri: 

€ struct icmp tiome; 

7 icma = (struct Long *) sendbuf : 

E ierm--iemp type = ICMP ECHO; 

9 icmp =icmp_cedcs = 0; 

10 ierp-siemp_ic = jid; 

11 icr» 4emnp seq = nseni e+; 

12 manse-licmp-»iomc data, Jxab, datalen!,; /* fill with pattern */ 
13 Gettimeotdzey([struct timeval +) icmz--icmp dcta. NULL); 

14 lan ~ 8 4 datalen; /* checksum [CMP header ard data */ 
15 icmo-»icmp ckeum = 0; 

16 icmp--icmp_cksum = in ckaumi!(u shzrt *) icmp, len); 

17 sanátcisocktÓ, sandbuf, len, 0, pr-»sasená, pr->ealen); 

18 : 


pingisend i.c 


图 28-14 send v4ENZi: 构造 并 发 送 一 个 ICMPv4 回 射 请 求 消息 
构造 ICMPv4 消 息 


7-13 构造 ICMPv4 消 恩 ， 把 标识 符 字 段 设 置 为 本 进程 DD， 把 序 
列 号 字段 设置 为 全 局 变量 nsent， 然 后 为 下 一 个 分 组 递增 nsent， 先 


TETAICMPTH IESU ZAR HEAT ALME N Oxa5 eel, i aaa 
的 开始 处 存 入 当前 时 间 。 
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计算 ICMP 校 验 和 


14-16 为 了 计算 ICMP 校 验 和 ， 我 们 先 把 校 验 和 字段 设置 为 0， 
再 调用 in_cksum 函 数 ， 并 把 返回 值 存 入 校 验 和 字段 。ICMPv4 校 验 和 
的 计算 涵盖 TCMPv4 首 部 及 后 跟 的 任何 数据 。 


发 送 数据 报 


17 通过 原始 套 接 字 发 送 刚 才 构 造 的 ICMP 消 轧 。 既 然 我 们 没有 
开局 IP_HDRINCL 往 接 字 选项 ， 内 核 将 为 我 们 构造 ITPv4 首 部 并 把 它 安 
置 在 我 们 的 缓冲 区 之 前 。 


网 际 网 校 验 和 是 被 校 验 的 各 个 16 位 值 的 二 进 制 反 码 和 (ones- 
complement sum) 。 如 果 数 据 长 度 为 奇数 个 字 节 ， 那 就 为 计算 校 验 和 
而 在 数据 末尾 逻辑 地 添加 一 个 值 为 0 的 字 节 。 在 计算 校 验 和 之 前 ， 要 将 
校 验 和 字段 置 0。 本 算法 适用 于 IPv4、ICMPv4、IGMPv4、ICMPv6、 
UDP 和 TCP 等 首部 的 校 验 和 字段 。 关 于 网 际 网 校 验 和 的 额外 信息 及 若 
干 数值 例子 参见 RFC 1071 [Braden, Borman, and Partridge 1988] ° 
TCPv2 的 8.7 节 更 为 详细 地 讨论 了 这 个 算法 ， 并 给 出 了 一 个 效率 更 高 的 
实现 。 图 28-15 给 出 的 ijn_cksum 画 数 用 于 计算 校 验 和 。 


lidjreesin_c&sum.c 


1 uintié_t 
2 in exoum(uirtl6 t addr, int len) 

3 ( 

4 int nleft - len; 

5 vint32 t sun = 0; 

5 uinti t rw = addr; 

7 vintl6 t answer = 2; 

8 i* 

S * Quz algcrithm is simple, using a 32 bit accumulator (sum). we add 
10 * sequential 16 bit words to -=, and at the end, fold back al. the 
11 * carry bits Erom the top 16 bits into the lower 16 bits. 

12 +/ 

13 while (nleft > 1} | 

ld sum += *Wét; 

15 aiota ^2: 

16 } 

17 /* mop up an odi byte, if necessary */ 

16 i= (nleft == 1) [ 

19 *^tunsigned chez *);sanswer) - *(unsioned char *)w ; 

20 suT += answer; 

21 ) 

22 /* add back carry outs from top 16 bits to low 16 bite */ 

23 sum = (sum »» 16) + (sum S CxEfE£); /* add hi 16 to low 16 */ 
24 sum += [cum »» 16); /* að carry */ 

25 &nswer = ~3uy; ‘* truncate to 16 bits */ 

26 return (answer): 


— 
图 28-15 ”in_cksum 画 数 ， 计 算 网 际 网 校 验 和 
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网 际 网 校 验 和 算法 


1-27 第 一 个 while 循 环 计 算 所 有 16 位 值 的 和 。 如 果 长 度 为 奇 
数 ， 那 就 把 最 后 一 个 字 节 也 加 入 总 和 中 。 图 28-15 所 示 的 算法 是 一 个 简 
单 的 算法 ， 对 于 我 们 的 ping 程 序 确 实 够 用 了 ， 然 而 对 于 由 内 核 执 行 的 
e ， 因 而 内 核 通 常 都 有 特别 优化 过 的 
克 验 和 算法 。 


本 函数 取 目 由 Mike Muuss 编 写 的 ping 程 序 的 公开 域 (public 
domain) 版 本 。 


我 们 的 ping 程 序 版 本 的 最 后 一 个 函数 是 如 图 28-16 所 示 的 
send_v6， 它 构造 并 发 送 一 个 ICMPv6 回 射 请 求 。 


ping’send wh.c 


1 £incluze “ping.h" 


2 void 

3 send vé() 

4 1 

$ Lifdef Tews 

6 int len; 

7 struct icmpó6 hzr*icmc6; 

6 icmp6 = istzuct icvp? hdr +} sendbuf. 

a icnpé-siempé type = ICMPS ECHO REZUSST; 

10 icno6--icmpe coda - 3; 

1i iczmo6-»icmpe6 id - cid; 

12 icnp6-»icmpó sed = nsentr+; 

13 mense-i(icmpé + 1], 2xa5, datelen); /* £ill with pettern */ 
14 Gattimeofday((etruczt timeval *) [ictpo + 1), NULL); 

15 len = 8 + datalen; /* 8. byte ICMPv6 header */ 
16 Sendtc!sockzc. sendbuf, len. C. pr-»sasend, pr-»salen); 
17 /* kernel calculates and stores checksum fcr us */ 
48 $fendif jx Ipvs */ 

19 3 


pingisend v.c 


图 28-16 send v6/ENZX: 构造 并 发 送 一 个 ICMPv6 回 射 请 求 消 息 


send_v6 画 数 类 似 send_v4， 不 过 需 注 意 它 并 不 计算 ICMPv6 校 
验 和 。 正 如 我 们 在 本 章 早 先 所 提 ， 有 既然 ICMPv6 校 验 和 的 计算 涉及 IPv6 
首部 中 的 源 地 址 ， 该 校 验 和 就 由 内 核 在 选取 源 地 址 之 后 替 我 们 计算 并 


设置 。 
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28.6 traceroute 程 序 


我 们 在 本 节 开 发 一 个 自己 的 traceroute 程 序 。 与 上 一 节 开 发 的 
ping 程 序 一 样 ， 我 们 也 是 开发 自己 的 版 本 ， 而 不 是 给 出 公开 可 得 版 
本 。 这 么 做 的 理由 仍然 是 我 们 既 需 要 一 个 同时 支持 IPvV4 和 IPV6 的 版 
Ee ete net dee eee yee 

注意 力 。 


traceroute 人 允许 我 们 确定 IP 数 据 报 从 本 地 主机 游历 到 某 个 远程 

主机 所 经 过 的 路 径 。 它 的 操作 比较 简单 ，TCPv1 第 8 章 以 多 个 使 用 例子 
详细 讲解 了 它 的 原理 和 用 途 。traceroute 使 用 IPv4 的 TTL 字 上 段 或 
IPV6 的 跳 限 字 段 以 及 两 种 ICMP 消 妃 。 它 一 开始 癌 目 的 地 发 送 一 个 TTL 

(或 跳 限 ) 为 1 的 UDP 数 据 报 。 这 个 数据 报导 致 第 一 跳 路 由 器 返 送 一 个 
ICMP “time exceeded in transmit”( 传 输 中 超时 ) 错误 。 接 着 它 每 递增 
TTL 一 次 发 送 一 个 UDP 数 据 报 ， 从 而 逐步 确定 下 一 跳 路 由 器 。 当 某 个 
UDP 数据 报到 达 最 终 目 的 地 时 ， 目 标 是 由 这 个 主机 返 送 一 个 ICMP 
“port unreachable (端口 不 可 达 ) ”错误 。 这 个 目标 通过 向 一 个 随机 选 
取 的 (但 愿 ) 未 被 目的 主机 使 用 的 端口 发 送 UDP 数 据 报 得 以 实现 。 


早期 版 本 的 traceroute 程 序 只 能 通过 设置 ITP_HDRINCL 套 接 字 
选项 直接 构造 自己 的 IPv4 首 部 来 设置 TTL 字 段 。 然 而 如 今 的 系统 却 提 
供 IP_TTL 套 接 字 选项 ， 它 允许 我 们 指定 外 出 数据 报 所 用 的 TITL。 (这 
个 套 接 字 选项 随 4.3BSD Reno 版 本 引入 。) 设置 这 个 套 接 字 选项 比 构 
造 完 整 的 IPv4 首 部 容易 得 多 (尽管 我 们 将 在 29.7 节 给 出 构造 I[Pv4 首 部 和 
UDP 首部 的 方法 ) 。IPv6 的 IPV6_UNICAST_HOPS 套 接 字 选项 允许 我 
们 控制 IPv6 数 据 报 的 跳 限 字段 。 


图 28-17 给 出 所 有 程序 文件 都 包含 的 trace.h 头 文件 。 


tecercuteifrace Ti 
1 d-:n-zIude ^unp. ^" 
7 include enetinet/in sys-m h» 
3 d:n-lude enet inet/ip.h» 
3 d-n-lude -netinet/ip icwp.h» 
5 din-lude enetinet/udp.h» 


& lsfine BUFSIZE 155¢ 

7 struct gee « /* forral cf oulgqoine UDP data */ 
E u shori sec seu: /* sequence nusbez ?/ 

5 u shurt sec tol; /* TTL pecket lett with */ 

10 struct tireval rez tv; /* time packet left */ 

iz fi 

12 j= glcbals */ 

13 char recvbuf [BUFSIZE]; 

14 char gendbuf [BUFSIZE]; 


i5 int datalen; /* Ë bytes of data following ICME header */ 
i6 char thoet; 
17 U_ehort sport, port; 


i8 int nzent; f* add l for sach ceréto!) */ 

19 pid t pid: f* our PIO v/ 

20 int prcbc, rprop28: 

21 int scndfd, rcevtóá: /* send on UDP sock, read on raw ICMI sock */ 
22 int ttl, mix ttl; 

23 int verbose; 

24 /* function prctotyrpes */ 


25 const char  *-cmocode v4 (intl; 
2G conat char  *-cmocode v6iin-l; 


27 int rez vá&(int, struck timeval *); 

2H int racy w6(int, struct timeval *); 

29 vend sig alrn(int); 

30 vard trace loop (voids ; 

31 wad tv subis-ruck timeval *, struct tineval ^}; 


32 stmct proto 1 


33 comet char *(*icmpcode) (int); 

34 in- (*recy) [int, struct -imeval *); 

35 struct sockadd=  *sasend; Li sockaddr() for send, from getacdrinfo */ 
36 struct sockadd:  *sarecv; i* sockaddr() for receiving */ 

37 struct sockadd» *salast; /* las: sockaddr() for receiving */ 

38 struct sockadd: *sabind; /* suckadde{} for binding source port ^/ 
39 socklen . salen: /* length of sxockaddi()s */ 

40 in. icpsroto; /* IPPROTO xxx value four ICMP +7 

41 ins Ltllevel; /^ sebseckove() level io set TTL 4/ 

42 ins ttlopcneme: jA suwtscockosz(] name to set TTL ^/ 

43 } “pr; 


44 4ifdet Ipv6 


45 4inclade «netinet/ip6.h» 
46 4inclide «netinet/icrpe.-» 


47 4endit 
trocerautsfrace f 


图 28-17 _ trace.h 头 文件 


1-11 我 们 包含 定义 IPv4、ICMPv4 和 UDP 的 结构 和 常 值 的 标准 
IPv4 头 文件 。rec 结 构 定 义 我 们 发 送 的 UDP 数据 报 的 数据 部 分 ， 不 过 


我 们 将 发 现 其 实 无 需 查 看 这 些 数据 。 发 送 它 们 主要 是 为 了 调试 目的 。 
定义 proto 结 构 

32-43 与 上 一 下 的 ping 程 序 一 样 ， 我 们 通过 定义 一 个 proto 结 
构 来 处 理 IPv4 和 IPv6 之 间 的 差异 ， 该 结构 含有 体现 这 两 个 IP 版 本 之 间 
差异 之 所 在 的 函数 指针 、 套 接 字 地 址 结构 指针 和 其 他 常 值 。 当 main 郴 
数 处 理 完 目的 地 址 之 后 (程序 将 使 用 IPv4 还 是 IPv6 就 由 目的 地 址 决 
4E) ， 全 局 指针 变量 pr 将 被 按照 所 用 IP 版 本 设置 为 指 癌 某 个 为 IPv4 或 
IPv6 初 始 化 过 的 proto 结 构 。 
包括 IPv6 头 文件 


44-47 我 们 包含 定义 IPv6 和 ICMPv6 结 构 和 常 值 的 头 文件 。 


755~ 
756 
图 28-18 给 出 main 函 数 。 它 处 理 命令 行 参 数 ， 为 IPv4 或 IPv6 初 始 化 
pr 指针 ， 并 调用 traceloop 函 数 。 


iroceronie/ntain.c 


1 #incluce *trace.h" 

2 struct prolopruto v4 = { lompeode_v4, recv v4, NULL, NULL, NULL, NULL, 9, 
3 IPPRC^7O ICMP, IPPROTO IF, IP TTL 

4 J]: 

5 #ifdef IVG 

6 struct protoprotc_vé = | icmpcode_v5, recv_vé, NULL, NULL, NULL, NULL, 0, 
7 IEPROTO ICMPVG, IPERCTO_IPVG, IPVG_UNICAST_HOPS 

s); 

5 #endif 

10 ant datalen ~ sizeof (struct rac); /* defaults */ 

12 int max ttl - 30; 

12 int nprobes - 3; 

13 u start dport = 32768 + 666; 

14 int 

15 mainline argc, char **argv! 

16 : 

17 int Cc; 

18 etruct addrirto *ai; 

15 char ‘*h; 

20 orterr = ð; /^ don't want getozt() writing to s-derr */ 
ab walle | ic - getcptiarge, argv. "r:v*!) i= <2) { 

22 owitch (c) £ 

23 case 'm': 

24 if ( (max ttl = atoi[optargl) <= 1) 

25 err quít("invalíd -m value"); 

26 brcak; 

27 case 'v': 

FR verbcas-s; 

29 break; 

30 case "27; 

3t err quit ("umrecognizes cpticn: &c", c}; 

22 ) 

33 H 

34 if (ostind !- arge 1) 

35 err quit ("usage: LrecerouLe © -m «maxtt:» -v J <hostnere>"); 


36 host = argv[optind); 
a7 pid = qetpid(;; 


36 Signal (SIGALRM, sig alrm!; 


39 &i = Host serv(hos-, NULL, C, 0}; 

40 h = Sock ntop naostí(ai-»zi addr, ai-»ai azdr-zn). 

41 p-intf(*tracesrcute to ts ($s): td hops mex, $d data byces\n" 
4a ai->ai canonname ? ai--ai csnonrame : h, h, max ttl, datalen); 
42 /* initialize according to protocol */ 

44 i= (zi-»3i family =-= AF INET) ` 

15 Pr - &proto v4; 

46 tifdef  TPV6 

37 ) elee if (ai->ai family -= AF IMETS) { 

46 zr = &proto vt; 

49 if 'ING IS ADOR_V4M8PFE> 

50 GCSE run s: wkaddr inâ tJai ->a i_addı |= »sin6 acide ))) 
51 err quit ("cannot traceroute 1Pv4-mnapzed LIPv6 address") ; 
52 #endif 

53 j else 

54 err quit("urnkrican address family $2", ai-»ai familv); 

55 p--»5amerd = ai-»41 addr: [> corta rms desinat ior: address */ 
SE pr-ssarecy ~ Callocil, al->ai addrilen!; 

55 pr->calact = Callocil, zi-»2i addrlen,; 

56 pz-»sabird = Callocil, &i-»ai addrlen'; 

ss p--»saler = ai-»ai addrler; 

60 t-acelcopí); 

51 exiti0); 

62 ) 


irccecoaieranain. v. 


图 28-18 traceroutefz/rRJmainERZKk 
定义 proto 结 构 


2-9 ”为 IPv4 和 IPv6 分 别 定义 一 个 proto 结 构 ， 不 过 直到 本 函数 
末尾 才 分 配 指 癌 套 接 字 地 址 结构 的 指针 。 


设置 默认 值 


10-13 本 程序 使 用 的 最 大 TTL 或 跳 限 默认 为 30， 不 过 用 户 可 以 
使 用 -m 命 令 行 选项 修改 该 值 。 对 于 每 个 TTL 值 ， 我 们 发 送 3 个 控 测 分 
组 ， 不 过 用 户 同样 可 以 使 用 某 个 命令 行 选 项 修改 该 值 。 目 的 端口 的 初 

台 值 为 32768+666， 以 后 每 发 送 一 个 UDP 数据 报 其 值 就 递增 1。 我 们 但 
目的 主机 上 未 在 使 用 这 些 端口 ， 不 过 无 
法 保证 。 


处 理 命令 行 参数 


19-37  -Vv 命 令 行 选 项 致使 显示 大 多 数 接收 ICMP 消 息 。 


处 理 主机 名 或 IP 地 址 参数 并 结束 初始 化 


38-58 ”调用 我 们 的 host_serv 画 数 处 理 目的 主机 名 或 IP 地 址 ， 
它 返 回 指向 某 个 addrinfo 结 构 的 一 个 指针 。 根 据 返 回 地 址 的 类 型 
(IPvAEXIPv6) ， 完 成 所 用 proto 结 构 的 初始 化 ， 把 指向 该 结构 的 指 
针 存 入 全 局 变量 pr ， 并 分 配 帮 和 干 个 大 小 合适 的 套 接 字 地 址 结构 。 


59 调用 图 28-19 中 给 台 出 的 traceloop 画 数 发 送 UDP 数 据 报 并 读 
取 返 送 的 ICMP 出 错 消 息 。 该 函数 是 本 程序 的 主 循环 。 


我 们 接着 查看 由 图 28-19 给 出 的 trace1Loop 画 数 。 


fracerouts/traceloup c 


1 include *trace.n" 

2 void 

3 brace leap (void! 

* 4 

5 int seq. code, 2 

6 éou»le rtt; 

$ struct rec *rec; 

8 Struct timeval Lvxecv; 

9 recv?d = Socket (pr->»sasend->ga_fanily, SOCK RAW, pr-»icmpproto): 


29 seluid/getuid[)); /* Com!) need special oscmissions anywoce ^/ 


11 #ifder Iris 


iz if i(pr-s*sasend-»sa Eamily -- AF IUET6 && verbose -- 0) 上 

i struct icmpé filter myfilt; 

14 TCME6 PILT3R SETBLIZCKALI |&myfilt]; 

15 TCMP6 PTLT3R ^ETPAZA!ICMPG TTMz EKCEROTD, amyfilt) ; 

15 ZCMF6 PILT3R SBTPAZS;ICMP6 DST UNREACHI, &mytilt!; 

i? setsockept (recvfd, LPPRCTO_Livé, 1CMPs FILTER, 

zB &myFfilt, sizeof(nyfilt);:; 

13 H 

20 #endif 

21 sendid ~ Socket (pr->sasend->sa_familv, SOCK DGRAM, 0); 

ze pr-»oabind-»ca fanily = pr-»cacend-»5à familv; 

23 sport - (qe:zpid(! & Oxffff) | 0x8000:  /* our source ULP port 4 */ 
24 sock set porzí(pr-»sabinc, pr->salen, htcns (sport) ); 

25 Bind(sendfid, pr-»sa-ind, pr-»salen): 

26 E-q alrm(SIGALRM!; 

27 ceq = Or: 

28 done - 2: 

25 for (ttl ~ 1; ttl <= max ttl an donu =- 0; ctle«) { 

30 Setsockcpt (senzfd, pr-sttllevel, pr-»st-lop-nawe, Sttl, sizeof (int)); 
31 bzero/n--»salast, pr-ssalen!; 

z printf("520 ", ctl); 

33 fflush(st.dont.) ; 

34 for (prcbe = 0; probe < nprubes; probes+) ( 

35 pez m (steui rec 4) seit: 

35 rez-»rec seq = e-seqg; 

7 rez-»rec ttl = ttl; 

39 Gettimscrdayl&rec-»rzec tv, NUL.!; 

39 ork sat portipr-2sasezd, pr-zaalan, herens (apart + seq), 
40 Scndtoicendtd, cendbut, dataicn. 0, pr-»saccnd, pr »oclen); 
41 if ( io6de = (4pr-stecy) (seg, atwreecv)) == -3) 

42 printfi" +"); /* timeout, no reply */ 

3 else | 
41 char  str[NI M^XHOST]: 
45 if (socs_cmp_adéripx->sarecv. pr->galast, pr-»ealen! !- 0) | 
ae if (qetnameinfo(pr->sarecy, pr->calen, otr, sizeof(ctr). 
43 NULL, 9, 0) -- 0) 
46 printf£(" tz ($z2;*, str, 


48 Sock ntoo host {pr-ssazecv, pr-»salen!]; 


SC clasc 
51 priate," ks”, Sock Diop his (pr--5e7Ec, pr-»salrenl): 
memcpy(pr-*salast, pr-»serecv, pr-»salen!; 


) 


54 tv_sub(&tvrecv, &rec-»rec tv); 

Ss rey = CVCV, cv sec * 1000.0 + turecu.-^v usec / 100C .2; 
SE orintf(" *.3EÉ ne", r-t!; 

57 if ‘code -~ -1! /* port unreachable: at destination */ 
SA aone es : 

59 alse if (code >= J} 

50 printf(" (ICME ts)", (*pr-»icmzcode) (cede)! ; 

^1 

b2 Eflush(stdoct); 

52 ) 

54 prin-f ("An"); 

65 } 

56 } 


iracercaemmoceloor.c 


图 28-19 traceloop/XZ&: 主 处 理 循环 


创建 两 个 套 接 字 


9-10 我们 需要 两 个 套 接 字 : MA BEA AT AIRISICMPYA AN — 
个 原始 套 接 字 ， 从 中 以 不 断 递 增 的 TITL 写 出 探测 分 组 的 一 个 UDP 套 接 
字 。 原 始 套 接 字 创建 完毕 之 后 ， 我 们 把 本 进程 的 有 效用 户 ID 重 置 为 实 
际 用 户 ID， 因 为 我 们 不 再 需要 超级 用 户 权限 。 


设置 ICMPv6 接 收 过 滤器 


11-21 如 果 这 是 一 个 IPv6 原 始 套 接 字 ， 而 且 用 户 没 有 指定 -Vv 命 
令 行 选项 ， 那 就 在 这 个 原始 套 接 字 上 安装 一 个 过 滤器 ， 阻 止 除 “time 
exceeded” 和 “destination unreachable” 这 两 类 ICMPv6 出 错 消 息 外 的 所 有 
ICMPv6 消 轧 。 这 么 做 可 以 缩减 该 父 接 字 上 收取 的 分 组 数 。 


给 UDP 套 接 字 捆 绑 源 端口 


21-25 调用 bind 在 UDP 套 接 字 上 捆绑 一 个 用 于 发 送 的 源 端 口 ， 
所 用 值 为 本 进程 ID 的 低 序 16 位 ， 不 过 高 序 位 总 是 置 为 1。 既 然 本 程序 
可 能 有 多 个 副本 同时 运行 在 本 地 主机 上 ， 我 们 有 必要 区 分 一 个 接收 
ICMP 消 息 是 出 于 响应 本 进程 发 送 的 数据 报 产 生 的 还 是 出 于 响应 其 他 
traceroute 进 程 发 送 的 数据 报 产 生 的 。 我 们 为 此 使 用 UDP 首 部 的 源 
端口 字段 标识 发 送 进程 ， 因 为 返 送 的 ICMP 出 错 消 息 必 须 包含 引发 该 
ICMP 错 误 的 那个 UDP 数据 报 的 首部 。 


f& WSIGALRMAYS Sb 


26 ”为 SIGALRM 信 和 号 建立 信号 处 理 函 数 (sig alrm) ， 因 为 每 
发 送 一 个 探测 分 组 之 后 ， 我 们 为 接收 ICMP 消 息 等 待 3 秒 钟 ， 然 后 才 发 
送 下 一 个 探测 分 组 。 


主 循环 : 设置 TTL 或 跳 限 并 发 送 3 个 探测 分 组 


27-38 本 函数 的 主 循环 是 和 藤 套 的 两 个 For 循环 。 外 层 循环 从 
TIL 或 跳 限 为 1 开始 ， 每 循环 一 次 加 1， 内 层 循环 则 为 每 个 TTL 或 跳 限 
值 向 目的 地 发 送 3 个 探测 分 组 (UDP 数据 报 ) 。 每 当 TTL 或 跳 限 值 发 生 
变化 时 ， 我 们 就 使 用 套 接 字 选 项 TP_TTL 或 TPV6_UNICAST_HOPS 为 
外 出 探测 分 组 设置 新 值 。 


外 层 人 循环 每 一 轮 开 始 时 ， 我 们 把 由 salast 成 员 指 向 的 套 接 字 地 
址 结构 初始 化 成 0。 每 当 读 入 一 个 ICMP 消 乱 时 ， 该 结构 将 与 由 
recvfrom 返 回 的 套 接 字 地 址 结构 作 比较 ， 如 采 两 者 不 一 致 ， 那 就 把 
后 者 复制 到 前 者 ， 并 显示 取 目 后 者 的 IP 地 址 。 使 用 这 个 技巧 可 以 做 
到 : 对 每 个 TTL 都 显示 啊 应 第 一 个 探测 分 组 的 IP 地 址 ， 要 是 对 于 茶 个 
给 定 TTL 值 这 个 IP 地 址 发 生变 化 〈 璧 如 说 吏 在 我 们 运行 本 程序 期 间 某 
个 路 径 出 现 变动 ) ， 那 么 新 的 了 P 地 址 也 被 显示 。 


设置 目的 端口 并 发 送 UDP 数 据 报 


39-40 在 发 送 每 个 探测 分 组 之 前 ， 调 用 我 们 的 
soct_set_port 函 数 修改 sasend 成 员 指 向 的 套 接 字 地 址 结构 中 的 目 
的 端口 。 为 每 个 探测 分 组 更 改 目的 端口 的 理由 是 ， 当 这 些 探测 分 组 到 
达 最 终 目 的 地 时 ， 所 有 3 个 探测 分 组 被 发 送 到 不 同 的 端口 ， 我 们 但 愿 其 
中 至 少 有 一 个 未 在 使 用 中 。 探 测 分 组 (UDP 数据 报 ) 调用 sendto 发 


757~ 
761 
读 入 ICMP 消 息 


41-42 ”通过 使 用 recv_v4 和 recv_v6 这 两 个 函数 之 一 调用 
recvfrom 读 入 并 处 理 返 送 的 ICMP 消 息 。 这 两 个 函数 在 发 生 超 时 时 返 


回 -3 《如果 尚 未 为 当前 TIL 值 发 送 3 个 探测 分 组 ， 那 么 该 返回 值 是 在 告 
知 我 们 要 发 送 另 一 个 探测 分 组 ) ， 在 收 到 一 个 ICMP“time exceeded in 
transit” 错 误 时 返回 -2， 在 收 到 一 个 ICMP “port unreachable” 错 误 时 返 
回 -1 (意味 着 探测 分 组 已 经 到 达 最 终 目 的 地 ) ， 在 收 到 某 个 其 他 代码 
的 ICMP 目 的 地 不 可 达 错 误 时 返回 某 个 非 负 的 ICMP 代 码 值 。 


显示 应 答 


43-63 ”如 前 所 提 ， 如 果 所 读 入 的 ICMP 消 息 是 某 个 给 定 TIL 值 的 
第 一 个 应 答 ， 或 者 就 当前 TITL 值 而 言 发 送 应 答 (ICMP 消 息 ) 的 节点 IP 
地 址 发 生 了 变化 ， 我 们 就 显示 应 答 发 送 主 机 的 主机 名 和 了 IP 地 址 〈 若 
getnameinfo 不 返回 主机 名 则 只 显示 IP 地 址 ) 。 作 为 探测 分 组 发 送 时 
刻 和 相应 应 答 (ICMP 消 息 ) 收取 时 刻 的 上 时间差 计算 并 显示 RTT。 


图 28-20 给 出 recv_v4 函 数 。 


traceranterecy_ v4.c 


1 #include 'Lracg.L" 


2 extern irt gctalarm; 


3 /* 

4 + Return: -3 on timcout 

5 * -2 ou ICM? ciwe ex-eseded in transit [caller keeps going! 
e * -1 on ICM?» port unrezcnable (callsr is done} 

? >= 0 return value if come other 1CMP unreachable code 
OF 

9 int 

10 recv vé(int sez, struc- timeval *tv} 

x { 

12 int hlenl, hlen2, icmplen, ret; 

13 Sccklen t ler: 

14 S5.z@ t n; 

15 otruct ip tip, *hsp; 

16 struct icmp *icmc; 

17 struct udphdr “udp; 

18 gctalarm = 0; 

19 élarm{(3! ; 

20 for a3 BY 

24 if (got alarnnt 


2 ret urn(-3); /* alarm expire */ 

a ler = prevsalen; 
24 n = re^vfrcn(recufá, recvouf, sizeof (recvbuf), 0. pr-»ssrecu, &len): 
5 if {n < 0) À 


26 if texrmo == EINTR) 


7 continue; 
28 else 
28 erz sysj"recvfrou error"); 
30 } 
31 ip - (struct ip *! recvbuf; /* start of IP Leader */ 
32 hient = ip-»ip hl «e 2: /* length of IP header */ 
33 icmp = (Struct icp *) [reevbuf + Alenil; /* start of icv header v/ 
34 if í (icmpler » n - hlenl! < &) 
35 comt ime; /* not enough tc look at ICME header */ 
36 if iLermp->icmp_tyre -- ICM>_TIMACESE ká 
37 icop->icmp code == ICMP TIMCEED INTRANS) | 
38 if (iemplem « A 4 sizecfiso-uct ipll 
39 zcntinmue; /* not enough data to lock at inrer 1» */ 
40 Lip - (struct ip *) |recvbul + hlenl + 3); 
41 Flen2 = nip->ip hl «« 2; 
2 if (iemplen < 8 + hlenz 4 i! 
43 centinue,; /* rot enough data tc look at UDP porte */ 
zi udp = (struct udpadr *} írecvbot? + hlenl = 5 + Lzlen2!; 
45 if Inip-»ip p <= IFPRÜTO ULP && 
46 udp-»uh sport == htons (sport) && 
"T udp-»4h dpert sz hrens(dport € seh i 
48 ret = -2; /* we hit an intermediate router */ 
49 breax: 
50 ) 
51 ) else it [iemp-sicmp_type == ICMP UNRZACH) [ 
53 if ticmplen < 8 + gizecf'gcruct ip)) 
5i zont inue; /* not suough dela Lc look aL sms IP i7 
54 kip = (ctruct ip *) :recvbuz 1 hleni 1 8!; 
55 hlenz = nip-»ip hl << 2; 
55 if iicuplen « 8 + hlen2 + 4! 
51 zentiaue; /* not enough data to look at UDP ports */ 
55 udp = (si.rucL udpiudz 4) írecebol + hleni = 5 + hlen2i; 
59 if (hip-sip_p == TFPROTO_IMP && 
6U uép »uüh sport == htens(sport) 55 
61 udp-»uh dport == hzcns(dport + seq)) ` 
62 it ;icmp-siemp code -- ICMP UNRZACH PORT! 
63 ret e -lj /* have reached deotinacion */ 
64 DE 
65 ret = icmp-»icmp code; /* D. 1, 2, ... */ 
66 break; 
7 i 
68 } 
69 if (verbose) ( 
76 printi(" (from $s: type = $d, code = Sd!n', 
T Sock_ntep_host (pr->scarecy, px->salcnt, 
7 izwp-»icmp tvpse, icmp->icnp_code) : 
73 } 
7 /* Jome other ICMP error; recvirom() acain */ 
75 ) 
765 alarm); /* don't leave alarm Timm ng */ 
72 Cettimeofday (ty, NULL); /* qct tine of packet arrival */ 
78 return {ret}; 
79 | 
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图 28-20 recv v4ERZ: 读 入 并 处 理 ICMPv4 消 息 


设置 报警 时 钟 并 读 入 每 个 ICMP 消 息 


19-30 设置 一 个 3 秒 钟 的 报警 时 钟 后 进入 一 个 调用 recvfrom 的 
循环 ， 以 读 入 返 送 到 原始 套 接 字 的 所 有 ICMPv4 消 息 。 


本 函数 使 用 一 个 全 局 标志 在 相当 程度 上 避免 了 我 们 在 20.5 世 讲解 
X BTE THINGS ° 


763 
获取 ICMP 首 部 指针 
31-35 ip 指向 IPv4 首 部 的 开始 位 置 〈 回 顾 一 下 ， 在 原始 套 接 字 
上 的 读 入 操作 总 是 返回 IP 首 部 ) ，icmp 则 指向 ICMP 首 部 的 开始 位 
置 。 图 28-21 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 指 针 和 长 度 。 


n 


icmplen 
klen1 hlen2 
IPvéit E, EO Bd 
He 
4 20:45 07-40 à 8 i 20 (7-40 8 
ip icmp hip udp 


— FEICMPP RIEP vA EA 


图 28-21 ”处 理 ICMPv4 错 误 涉 及 的 首部 、 指 针 和 长 度 


处 理 ICMP 传 输 中 超时 错误 


36-50 ”如 果 所 读 入 的 ICMP 消 息 是 一 个 “time exceeded in 
transmit" 出 错 消息 ， 那 么 它 可 能 是 响应 本 进程 某 个 探测 分 组 的 应 答 。 
hip 指 向 在 这 个 ICMP 消 息 中 返回 的 IPv4 首 部 ， 它 跟 在 8 字 节 的 ICMP 首 
部 之 后 。udp 指 疝 跟 在 这 个 IPv4 首 部 之 后 的 UDP 站 部。 如 果 该 ICMP 消 
息 是 由 某 个 UDP 数 据 报 引起 的 ， 而 且 这 个 UDP 数 据 报 的 源 端 口 和 目的 
端口 确实 是 本 进程 发 送 的 值 ， 那 么 它 是 来 自 某 个 中 间 路 由 器 的 啊 应 我 
们 的 探测 分 组 的 一 个 应 答 。 


处 理 ICMP 端 口 不 可 达 错 误 


51-68 ”如 果 所 读 入 的 ICMP 消 息 是 一 个 “destination 
unreachable” 出 错 消息 ， 我 们 就 查看 在 这 个 ICMP 消 息 中 返回 的 UDP 首 
部 ， 判 定 它 是 不 是 啊 应 本 进程 某 个 探测 分 组 的 应 答 。 在 这 个 ICMP 消 息 
确实 是 响应 本 进程 某 个 探测 分 组 的 应 答 这 一 前 提 下 ， 如 果 它 的 ICMP 代 
BH“ Pon unreachable”， 那 就 返回 -1， 因 为 其 探测 分 组 已 经 到 达 最 终 目 
Hy, AU E 它 的 ICMP 代 码 值 。 后 者 的 常见 例子 之 一 是 由 某 个 防 
dg WHITE 测 的 目的 主机 返回 一 个 其 他 不 可 达 代 码 。 


处 理 其 他 ICMP 消 息 


69-73 ”如果 用 户 指定 了 -v 命 令 行 选 项 ， 那 就 显示 所 有 其 他 
ICMP 消 息 。 
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下 一 个 函数 recv_v6 由 图 28-24 给 出 ， 它 是 刚才 讲解 的 函数 的 IPv6 
等 价 函 数 。 它 与 recv_v4 儿 近 相 同 ， 不 过 使 用 不 同 的 常 值 名 和 结构 成 
员 名 。 此 外 ， 从 IPv6 原 始 套 接 字 收 取 的 数据 不 包括 IPv6 首 部 和 任何 扩 
展 首部 ， 对 于 我 们 的 原始 ICMPv6 套 接 字 而 言 ， 所 收取 的 数据 一 开始 就 
是 ICMPv6 惠 部 。 图 28-22 标 示 了 本 段 代码 所 用 的 各 个 百 部 、 指 针 和 长 


度 。 


icmpélen 


| ICMPv6 IPv6 首 部 UDP 首部 
首部 
À 8 字 节 8 


icmp6 M udp 


c 产生 ICMP 错 误 的 IPv6 数 据 报 


图 28-22 “处理 ICMPv6 错 误 涉 及 的 首部 、 指 针 和 长 度 


我 们 额外 定义 了 两 个 函数 icmpcode_v4 和 :icmpcode_v6， 它 们 
可 以 从 trace1oop 函 数 末 尾 作 为 printf 的 参数 调用 ， 以 显示 与 ICMP 
目的 地 不 可 达 类 型 错误 某 个 具体 代码 对 应 的 描述 串 。 图 28-25 给 出 了 其 
中 的 IPV6 芳 数 。IPV4 了 芳 数 与 之 类 似 ， 不 过 稍 长 些 ， 因 为 ICMPv4 目 的 地 
不 可 达 类 型 错误 有 更 多 的 代码 (图 A-15) ° 


我 们 的 traceroute 程 序 的 最 后 一 个 函数 是 SIGALRM 信 和 号 的 处 理 
函数 ， 即 由 图 28-23 给 出 的 sig_alrm 函 数 。 该 函数 所 做 的 仅仅 是 返 
回 ， 使 recv_v4 或 recv_v6 中 已 阻塞 的 recvfrom 调 用 被 中 断 ， 从 而 
返回 EINTR 错 误 。 


= ~ fraceroute/sig_alrm.c 
1 includes "trace hh" 


2 inz cocalarm; 
3 void 
4 sig al: u(inl s qna) 
5 f 
5 gozalam = 1; /* set flag to note that alarm occurred */ 
7 re-urrn; YA and interrupt the recviren() 4/ 
3} 
mocerovte/sig alrm.c 
图 28-23 sig alrmENZk 
trecerouterrecy_v6.c 
1 #include "Lrace.h* 


2 extern int yotalarm; 


3 /* 

4 + RsSturn: 3 on timccut 

5 +t -2 aon TOMP time exceeded in transit (caller keeps going) 
6 -1 on ICNP port unreachable (caller ias done! 

2 >= J return value is ecme other ICME unreachable ccde 
9 * 

S int 

10 recy vé(int seg, struct timeval *-v! 

11 | 

12 #ifdeft  IPVG 

13 int hien2, icmpélen, ret; 

14 esize t n; 

15 Sockler t len; 

16 struct ip6 h3r *hip6: 

17 struct icmpá hdr *icmps; 

lë struct uĝphdr *udp; 


- 
ca 
(ep) 


49 gotalarm = 7; 


2U alarwis)r 

21 Fee ts op pL 

22 if {gotalarm! 

23 recumi-3); /* alarm cxpircd */ 

24 len = pr-»saler; 

25 n a resverem(recvfs, reevhef, aizeotlrecybut), 0, pr-»sarecv, & enl, 
26 if n <v) { 

了 if (erID =- EIXTR) 

2n continue; 

29 else 

30 err sys("recvfrom error"); 

31 } 

32 icmp6 = (struct :cmpó ndr *) recvbut; /* IOMP header */ 
3i if ( { 1emoeler[ - r1 ] < 8) 

34 wont Laue: /* noL euoagh co look at ICMP leader ^/ 
a5 if Cempé-siemp5 type == TOMP T-MFE REKCEEDZD Rà 

36 icmp6--icmpo coce -- ICMP6 TINS EXCEED "TRANSIT! Í 

37 if (iewsélen < 3 + sizecfistruct icé hdr) + 4) 

3R conl inue? /? nol eniagh Cata to loos al inne: header */ 
33 h:p6 = (struct ip6 hdr *) (recvbuf + 6); 

4U h-en3 = sizeof (etruct ipe, 5dr); 

41 wip = (struct véphdr 4) (recvhuf + 8 + hler2); 

42 if f(hipS-siné rxt -~ IPFROTO UD? && 

45 udp-»uh sport == htcnaispor-; sa 

44 udp-»uh dport == htoms(dpor + sey)! 

45 ret =. +2; /* we nit an intermediate router */ 
46 break: 

47 ) else 1? (icmps-sicrps type -- L2KPe -ST UHREACH) i 

4h if (iempélen < 8 4 s:zecfistrucr. ip& hür) + €) 

49 continuae: /* not enough data to loox at inner header */ 
bu hips = (struct ipe hdr *) (recvbuf + &)r 

51 hien? ~ wsizeocf(struct ipé ndr); 

52 udp = (struct uéphdy *) (reevbuf + B + hler2); 

53 if (hio5-»ipe rxt =-=- IPLIROTO UDE Es 

54 udp-»uh sport == htcns(spor-; && 

55 udp-»uh dport == htensidpor= + seq)! { 

56 if (icmpé-»icmps code == ICMP6 DST UNREACH NOPURZ) 
83 ret - -1; /* have reached destination */ 

SA else 

59 rct = icrp6 »icmpe6 cod?; fe^; Lg Ms) atin 7 
60 Lreak; 

61 

62 } sloe iz (verbose) ` 

63 printf£i" {from ts: type = id, code = 7d)\n", 

64 Sack ntop host (pr-saarecy, pr-s*alen], 

65 icmçb »icnpz type. icnps5 »icmpt code]; 

66 } 

61 /* Some other ICMP errar, recvfrow() again */ 

68 

69 alarm;0): /* don't leave alarm running */ 
"7n Getbineotday(tv, MILL); /* get time of packet arrival */ 
"1 return iret); 

73 endif 

75 | 


djracercute/recv vá c 


图 28-24 recv vešt: 读 入 并 处 理 ICMPv6 消 息 


fraceroute/icmpoode_v6.c 


1 H-uüclude "Lrace.l" 


2 const char * 

3 icmpcode v6(int ccde) 
4 { 

与 


Hz fdef  rPV6 


5 static char 2rrbuf [100]; 

/ switch (code) { 

8 case ICMPS DST UNREACH NOROUTE: 

9 reLurn("ub TOULE Lo huost*!; 
10 case ICMPS DST UNREACH ADMIN: 
11 return ("administratively prohibitez"); 
12 case ICMPS_DST UNREACH NOTNEIGIBOR: 
13 return("not a neighror"); 
14 case ICMP5 UST UNREACH ADDR: 
15 rcturn("addrcos urrcachablc"); 
1€ case  ICMPS DST UNREACH NOPORT 
17 return ("port unreachable"); 
lë defavlt 
19 sprintfiersbuf. "unknown code *dj", code); 
20 return errbuf; 
21 } 
22 tendif 
- ] 


tracerouteicmpcode wi.c 


图 28-25 ”返回 对 应 于 某 个 ICMPv6 不 可 达 代 码 的 描述 串 


例子 


我 们 先 给 出 使 用 IPv4 的 例子 ， 其 中 对 过 长 的 输出 行 做 了 折 行 处 
理 。 


freebsd % traceroute www.unpbook.com 
traceroute to www.unpbook.com (206.168.112.219): 30 hops max, 24 
data bytes 

1 12.106.32.1 (12.106.32.1) 0.799 ms 0.719 ms 0.540 ms 

2 12.124.47.113 (12.124.47.113) 1.758 ms 1.760 ms 1.839 ms 

3 gbr2-p27.sffca.ip.att.net (12.123.195.38) 2.744 ms 2.575 ms 
2.648 ms 

4 tbr2-p012701.sffca.ip.att.net (12.122.11.85) 3.770 ms 3.689 
ms 3.848 ms 

5 gbr3-p50.dvmco.ip.att.net (12.122.2.66) 26.202 ms 26.242 ms 
26.102 ms 

6 gbr2-p20.dvmco.ip.att.net (12.122.5.26) 26.255 ms 26.194 ms 
26.470 ms 

7 gar2-p370.dvmco.ip.att.net (12.123.36.141) 26.443 ms 26.310 
ms 26.427 ms 


8 att-46.den.internap.ip.att.net (12.124.158.58) 26.962 ms 
27.130 ms 


27.279 ms 
9 borderi0.ge3-0-bbnet2.den.pnap.net (216.52.40.79) 27.285 ms 
27.293 ms 


26.860 ms 
10 coop-2.border10.den.pnap.net (216.52.42.118) 28.721 ms 28.991 
ms 


30.077 ms 
11 199.45.130.33 (199.45.130.33) 29.095 ms 29.055 ms 29.378 ms 
12 border-to-141-netrack.boulder.co.coop.net (207.174.144.178) 
30.875 ms 

29.747 ms 


30.142 ms 
13 linux.unpbook.com (206.168.112.219) 31.713 ms 31.573 ms 
33.952 ms 


r 接着 给 出 使 用 IPv6 的 例子 ， 对 其 中 过 长 的 输出 行 也 做 了 折 行 处 
JH o 


freebsd % traceroute www.kame.net 
traceroute to orange.kame.net 
(2001: 200:0:4819:203:47ff:fea5: 3085): 
30 hops max, 24 data bytes 
1 3ffe:b80:3:9ad1::1 (3ffe:b80:3:9ad1::1) 107.437 ms 99.341 ms 
103.477 ms 


2 Viagenie gw.int.ipv6.ascc.net (2001:288:3b0::55) 
105.129 ms 89.418 ms 90.016 ms 
3 gw-Viagenie.int.ipv6.ascc.net (2001:288:3b0::54) 
302.300 ms 291.580 ms 289.839 ms 
4 c7513-gw.int.ipv6.ascc.net (2001:288:3b0::c) 
296.088 ms 298.600 ms 292.196 ms 
5 mi160-c7513.int.ipv6.ascc.net (2001:288:3b0: :1e) 
296.266 ms 314.878 ms 302.429 ms 
6 m20jp-mi60tw.int.ipv6.ascc.net (2001:288:3b0: : 1b) 
327.637 ms 326.897 ms 347.062 ms 
7 hitachii.otemachi.wide.ad.jp (2001:200:0:1800::4:2) 
420.140 ms 426.592 ms 422.756 ms 
8 pc3.yagami.wide.ad.jp (2001:200:0:04::1000:2000) 
415.471 ms 418.308 ms 461.654 ms 
9 gr2000.k.wide.ad.jp (2001:200:0:8002::2000:1) 
416.581 ms 422.430 ms 427.692 ms 
10 2001:200:0:4819:203:47ff:fea5:3085 


(2001: 200:0:4819:203:47ff:fea5: 3085) 
417.169 ms 434.674 ms 424.037 ms 
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28.7 “一 个 ICMP 消 息 守 护 程序 


在 UDP 套 接 字 上 接收 异步 ICMP 错 误 〈 即 ICMP 出 错 消息 ) 一 直 以 
来 都 是 一 个 问题 。ICMP 错 误 由 内 核 收取 之 后 很 少 被 递送 到 需要 了 解 它 
们 的 应 用 进程 。 在 套 接 字 API 中 我 们 已 经 看 到 收取 这 些 错误 要 求 把 
UDP 套 接 字 连接 到 某 个 IP 地 址 (8.1197) 。 如 此 限制 的 原因 在 于 ， 能 
够 由 recvfrom 返 回 的 错误 信息 仅仅 是 一 个 errno 整 数 代 码 ， 如 果 一 
个 应 用 进程 在 向 多 个 目的 地 发 送 数据 报 之 后 调用 recvfrom， 那 么 该 
函数 难以 告知 应 用 进程 到 底 是 哪个 数据 报 引 发 了 一 个 错误 。S 


我 们 将 在 本 节 给 出 无 需 改动 内 核 的 另 一 个 解决 办 法 。 我 们 将 提供 
一 个 名 为 icmpd 的 ICMP 消 息 守 护 程序 ， 它 创建 一 个 ICMPv4 原 始 套 接 
字 和 一 个 ICMPv6 原 始 套 接 字 ， 接 收 内 核 传递 给 这 两 个 原始 套 接 字 的 所 
有 ICMP 消 息 。 它 还 创建 一 个 Unix 域 字 节 流 套 接 字 ， 把 路 径 
名 /tmpVicmpd 捆 绑 在 其 上， 然后 在 这 个 套 接 字 上 监听 针对 该 路 径 名 
的 外 来 客户 连接 。 图 28-26 展 示 了 icmpd 创 建 的 这 3 个 套 接 字 。 


监听 Unix 域 字 节 流 套 接 字 ， 
绑 定 / tmp/icmpd 


原始 套 接 字 | |I ERE 
/ 


ICMPv4 ICMPv6 


图 28-26 icmpd 守 护 进程 : 初始 创建 的 套 接 字 


作为 icmpd 守 护 进 程 的 客户 ， 一 个 UDP 应 用 进程 首先 创建 它 自 身 
的 UDP 套 接 字 ， 该 套 接 字 也 是 它 希 望 为 之 接收 异步 错误 的 套 接 字 。 该 
应 用 进程 必须 捆绑 一 个 临时 端口 到 这 个 UDP 套 接 字 ， 其 原因 我 们 稍 后 
讨论 。 接 着 它 创 建 一 个 Unix 域 字 节 流 套 接 字 ， 并 把 该 套 接 字 连接 到 
icmpd 的 众所周知 路 径 名 (/tmp/icmpd) 。 图 28-27 展 示 了 此 时 的 情 


i Ur Unix ig fT. 
Su / ome /iemod 


庶 用 进程 Unix 域 字 世 流连 按 


| UDP TEX 原始 套 接 字 \ 原始 套 接 字 
\ 


\ / \ 
| UDP | ICMPy4 | ICMPv6 


图 28-27 ”应 用 进程 创建 自身 的 UDP 套 接 字 和 到 icmpd 的 Unix 域 连接 


该 应 用 进程 然后 使 用 我 们 在 15.7 节 讲解 过 的 描述 符 传递 机 制 通过 
这 个 Unix 域 连接 把 它 的 UDP 和 均 接 字 *“ 传 递 " 给 icmpd。icmpd 于 是 得 到 
这 个 父 接 字 的 一 个 副本 ， 从 而 可 以 调用 getsock-name 获 取 绑 定 在 这 
个 套 接 字 上 的 端口 号 。 图 28-28 展 示 了 这 个 套 接 字 传递 过 程 。 


lS rUpix Er EAS E T 


HEE /tmp/icmpd 


fft 一 


点 用 进程 / 


/ 


Unix EL axe 


, 


LDP £o 一 一 fo xum 


-一 f 2^ 


# Y 
/ N 
| 
ICMPy4 ICMP v6 


\ -— 


\ — 
\ Deel 

\ x9 

UDP | 


图 28-28 ”应 用 进程 跨 Unix 域 连接 把 UDP 套 接 字 传递 给 icmpd 


icmp RAEE UDP ERF EmO FRA E 
字 的 本 地 副本 ， 它 和 应 用 进程 的 关系 于 十 恢复 到 图 28-27 所 示 的 情形 。 


如 果 主 机 支持 凭证 传递 〈15.8 节 ) ， 该 应 用 进程 也 可 以 把 它 的 赁 
证 发 送 给 icmpd v B iempdió a 否 多 许 该 进程 的 属 主 用 户 访问 本 
异步 错误 返回 机 制 。 


从 此 时 起 ，icmpd 一 旦 收取 由 该 应 用 进程 通过 绑 定 在 它 的 UDP 套 
接 字 上 的 端口 发 送 的 UDP 数 据 报 所 引发 的 任何 ICMP 错 误 ， 束 通过 Unix 
域 连接 向 该 应 用 进程 发 送 一 个 消息 (我 们 稍 后 讲解 该 消息 ) 。 该 应 用 
进程 因此 必须 使 用 select 或 p011， 等 待 它 的 UDP 套 接 字 和 Unix 域 套 
接 字 中 任何 一 个 有 数据 到 达 而 变 为 可 读 。 


下 面 我 们 首先 查看 使 用 icmpd 的 一 个 应 用 程序 ， 然 后 查看 icmpd 
守护 程序 本 身 。 我 们 从 图 28-29 开 始 讲解 ， 它 是 应 用 程序 和 icmpd 守 护 
程序 都 包含 的 头 文 件 。 
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1 #ifmie£ _ vnpicmp * 
4 fdefting — vnpicmp 7 


iempa/unpicmpa. hi 


3 fincluze "urp.h" 

4 #dcfinc ICMPD DAIH '/tmp/icncd" /* server's woll known pathname */ 
5 struct icnod ery | 

[4 it -npd "EDO; /* EHOSTUNREATH, EMSGSIZR, ECONMNRERUSEC */ 
7 caar icmpa Qe /* actual ICMPv[45] type */ 

6 char icupd_code; /* actual ICMPv[45] code */ 

9 sccklen t icupd_len; /* length of sockaddr{] that follows */ 


10 struct sockar storage ícmpá dssr;/* sockaddr storage handles any s:2e*/ 
ili 
12 $2ndif /* _ unpicmp h */ 
einpa/unpicmpd.h 


图 28-29 unpicmpd.h 头 文件 


4-11 定义 icmpd 的 众所周知 路 径 名 以 及 由 icmpd 传 递 给 应 用 进 
程 的 cmpd_ err 结 构 。 icmpd 一 旦 收 公 一 个 必须 传递 合 某 个 应 用 进程 
的 ICMP 消 息 就 传递 一 个 icmpd_err 结 构 给 这 个 应 用 进程 。 


6-8 问题 是 ICMPv4 消 息 类 型 和 ICMPv6 消 息 类 型 在 数值 上 (有 
时 甚至 在 概念 上 ) 存在 差异 (图 A-15 和 图 A-16) 。 除 了 返回 真正 的 
ICMP 类 型 值 和 代码 值 外 ， 我 们 还 把 它们 映射 成 一 个 errno 值 
(icmpd_errno 成 员 ) ， 类 似 图 A-15 和 图 A-16 的 “处 理 者 或 
errmo” 栏 。 应 用 进程 可 以 直接 人 处理 这 个 errno 值 ， 以 取代 处 理 协议 相 
关 的 ICMPv4 或 ICMPv6 值 。 图 28-30 给 出 了 icmpd 处 理 的 ICMP 消 息 类 
型 以 及 它们 的 errno 映 射 值 。 


ICMPv4 Hrs ICMP V6 错误 


ECONNRE FUSED 328 LI AS AT DX 端口 不 可 达 


EMSSS.Zk WAA {I DFMO ic Y* 分 组 过 交 
E:JOSTUNREACH 超时 PEDI 
EXOSTUNREACH YES IK 


EHOSTUNREACH 所 有 其 他 目的 地 不 可 达 代码 所 有 其 他 目的 地 不 可 过 代码 


图 28-30 ”从 ICMPvV4 和 ICMPvV6 错 误 映射 到 icmpd_errno 
icmpd 返 回 5 种 类 型 的 ICMP 错 误 。 


e 端口 不 可 达 (port unreachable) ， 指 示 在 目的 耳 地址 上 没有 绑 定 
目的 端口 的 套 接 字 。 


771 


。 分 组 过 大 (packet too big) ， 用 于 MTU 发 现 。 目 前 尚未 定义 允许 
UDP 应 用 进程 执行 路 径 MTU 发 现 的 API。 在 对 UDP 提供 路 径 MTU 
发 现 支 持 的 内 核 上 通常 发 生 如 下 情形 ， 该 ICMP 错 误 的 收取 导致 内 
核 把 其 中 携带 的 路 径 MTU 新 值 记 录 在 自身 的 路 由 表 中 ， 但 是 不 通 
知 所 发 送 数据 报 因此 被 网 络 丢 弃 的 那个 UDP 应 用 进程 。 该 应 用 进 
程 必须 超时 并 重 传 该 数据 报 ， 这 种 情况 下 内 核 将 在 目 吴 的 路 由 表 
中 找到 新 的 (而 且 是 更 小 的 ) MTU 值 ， 于 是 照 此 对 该 数据 报 执行 
分 片 。 要 是 内 核 把 这 个 ICMP 错 误 传 递 回 该 应 用 进程 ， 它 就 不 仅 能 
够 更 早 地 重 传 这 个 被 网 络 而 不 是 被 目的 地 丢弃 的 数据 报 ， 而 且 有 
el 其 中 携带 的 路 径 MTU 新 值 自行 降低 竺 发 送 数据 报 的 大 
超时 (time exceeded) ， 本 ICMP 错 误 类 型 常见 的 代码 为 0， 表 示 
IPV4 的 TTL 或 ITPv6 的 跳 限 已 到 达 0 值 。 本 错误 往往 表征 出 现 路 由 循 
环 ， 因 而 也 许 是 一 个 暂时 性 的 错误 。 


© ICMPv4 源 熄灭 (source quench) ， 尽 管 RFC 1812 [Baker 1995| 
反对 使 用 本 ICMP 错 误 ， 路 由 器 (或 误 配 成 用 作 路 由 器 的 主机 ) (05 
可 能 发 送 它 们 。 本 ICMP 错 误 指 示 某 个 分 组 已 被 丢弃 ， 因 此 我 们 像 
E BIS TR RADE MASE EN] o DEXRIPvOIX Usa BR 


. 所 有 其 他 目的 地 不 可 达 错 误 指示 某 个 分 组 已 被 丢弃 。 


10 icmpd_dest 成 员 是 一 个 套 接 字 地 址 结构 ， 用 于 存放 引发 本 
ICMP 错 误 的 那个 数据 报 的 目的 IP 地 址 和 目的 端口 。 该 成 员 既 可 为 IPv4 
的 sockaddr_in 结 构 ， 也 可 为 IPv6 的 sockaddr_in6 结 构 。 如 果 应 
用 进程 往 多 个 目的 地 发 送 数 据 报 ， 那 么 每 个 目的 地 都 有 一 个 这 样 的 套 
接 字 地 址 结构 。 通 过 以 一 个 套 接 字 地 址 结构 返回 目的 IP 地 址 和 端口 信 
息 ， 应 用 进程 可 以 将 它 和 自己 的 各 个 结构 相 比 较 ， 从 而 找 出 导致 错误 
的 那个 结构 。 这 是 一 个 sockaddr_storage 结 构 ， 能 容纳 系统 支持 
的 任何 套 接 字 地 址 结构 。 


28.7.1 ”使 用 icmpd 的 UDP 回 射 客户 程序 


我 们 现在 PUDIERA E) Tg cli KAREAR 
icmpd 守 护 程序 。 图 28-31 给 出 了 该 函数 的 前 半 部 分 


icmrd dctidi.c 
1 #include “uopiempd .h" 


2 void 

3 dg cli(FILz *fp, int sockfd, const SA *pservaddr. socklen_t servlen! 
4 

5 int icwpfd, maxfdpi; 

é char sendline (MAXLINE’, recvline[NAXLINE + 1); 
7 fd set rsat; 

8 osizo t n: 

9 struct timeval v; 

10 struct icmp err icmpd err: 

1i struct sockaddr un sun, 

m Sock bind wild(soc«fáG, pservacdr-ssa family) ; 

13 icmpfd ~ Sccker {AF LOCAL, SOCK STREAM, 0): 

14 cun.cur family = AP LOCAL; 

15 strcpy(sun.sun pata, ICMPD PATI); 

16 Connectí(icmpfd, (SA *)&sur, sizeof!sun)!; 

17 Write fa(icmefd, "Ll', l, &ockfd); 

18 n = Readtismpefd, reevline, 1); 

19 if (n t= 1 | recvlime[O] != '1') 

20 =rr_quit ("error creating icmp socket, r = td, char = $c", 
21 n, recvline[u]); 

22 FD ZERO (rset); 

23 maxfdpl = max;sockfd, iempfd) + 1; 


iempd dachOl.c 


图 28-31 dg_c1li 画 数 前 半 部 分 


Qu. 这 个 版 本 的 dg_cli 本 数 有 与 它 的 所 有 先前 版 本 同样 的 本 数 


捆绑 通 配 地 址 和 临时 端口 


12 调用 我 们 的 Sock_bind_wild 画 数 把 通 配 IP 地 址 和 一 个 临时 
端口 捆绑 到 UDP 套 接 字 。 这 么 做 使 得 稍 后 传递 给 Iicmpd 的 那个 本 套 接 
字 的 副本 有 一 个 绑 定 的 端口 ， 因 为 icmpd 需 要 知道 这 个 端口 。 


如 果 ijcmpd 收 取 的 本 套 接 字 副本 未 曾 绑 定 一 个 本 地 端口 ， 那 么 该 
守护 进程 也 可 以 执行 这 样 的 捆绑 ， 不 过 这 种 做 法 并 非 在 所 有 环境 中 都 
行 之 有 效 。 在 SVR4 实 现 ( 壁 如 Solaris 2.5) 中 套 接 字 并 不 是 内 核 的 一 
部 分 ， 在 一 个 进程 把 一 个 端口 捆绑 到 某 个 共享 的 套 接 字 上 之 后 ， 拥 有 
这 个 套 接 字 的 一 个 副本 的 其 他 进程 会 在 试图 使 用 该 套 接 字 时 碰 到 奇怪 
的 错误 。 最 简易 的 解决 办 法 就 是 要 求 应 用 进程 在 把 本 套 接 字 传递 给 
icmpd 之 前 绑 定 本 地 端口 。 


与 icmpd 建 立 Unix 域 连接 


13-16 创建 一 个 AF_LOCAL 套 接 字 ， 并 connect 到 icmpd 的 众 
所 周知 路 径 名 。 


把 UDP 套 接 字 发 送 给 icmpd 并 等 待 它 的 应 答 


17-21 调用 我 们 的 write_fd 函 数 (图 15-13) 把 本 UDP 套 接 字 
的 一 个 副本 发 送 给 Icmpd 。 我 们 还 发 送 一 个 值 为 字符 “1? 的 单字 节 普 通 
数据 ， 因 为 有 些 实现 不 会 在 没有 任何 普通 数据 的 条 件 下 以 辅助 数据 的 
形式 传递 描述 符 。icmpd 通 过 发 送 回 一 个 值 为 字符 “1” 的 单字 节 数 据 表 
示 成 功 。 任 何其 他 应 答 均 表示 发 生 某 个 错误 。 


22-23 ”初始 化 一 个 描述 符 集 ， 并 计算 select 的 第 一 个 参数 
(两 个 套 接 字 描 述 符 的 较 大 值 再 加 1) 。 


图 28-32 给 出 dg_c1i 函 数 的 后 半 部 分 。 它 是 一 个 循环 : 从 标准 和 输 


入 读 入 一 个 文本 行 ， 并 把 该 文本 行 发 送 给 服务 器 ， 然 后 读 入 来 目 服务 
妖 的 应 答 ， 并 把 该 应 答 写 出 到 标准 输出 。 


772~ 
773 


icmpddeclil.c 


24 wille iFyetstiseni ine, MAXLINE, fp) := NULL! [ 

35 Serdto(scextd, sendlire, strlen(sendline), 0, pservaddr, servlen); 
z6 ty.tv sec « 5j 

27 tv.tv usec = 0; 

28 FD SRT(szckfd, &rset!; 

29 FD SET (icmefd, rset); 

30 it | (nm = Select (maxsspl, &rset, NULL, NULL, &tv!) == 0) { 

2L fprintf (stderr, “socket timeout\n"); 

32 cortinue; 

FE ) 

34 it (FD :S5StC(sockfd, Srsct]! ( 

35 n = Rezvfram(sockfd, recvline. MAXLINE, 0, NULL, NULL); 

a6 recvl:re[n] = 0; /* ml] terninate */ 

37 Fprts;recvline, stdout;; 

38 ) 

39 if (PD_ISSET(icmpfd, Srset]! ( 

40 if ( in = Read(icupfd, &icmpd err. sizeof (icmpd_err)}) == 0) 
da’ err juit (* TCMP. darmon Lernirint md » 

42 else if (n != sizeof (icrpa err)! 

43 crr quit("n = td. cxpscted td", n, sizcot:'icmpd crr)]; 
44 printf ("ICMP error; dest = ts, ts, type = td, code = $d*n". 
45 Sock _ nop(siempd err cmp dest, icrpd err, icmgel Jen), 
qé stresrroriicmpd err.icmpd errno}, 

47 icriod err.icmpd type, icmpd err.icmed code): 

46 ) 

49 

50 1 


icmpd dachiPl.c 


图 28-32 ”dg_c1li 夯 数 后 半 部 分 
调用 select 


26-33 ”既然 是 在 调用 select， 我 们 可 就 此 轻易 地 在 等 待 来 自 
回 射 服务 硕 的 应 答 上 设置 一 个 超时 。 我 们 把 超时 时 间 设 置 为 5 秒 钟 ， 打 
开 两 个 套 接 字 在 读 描 述 符 集中 对 应 的 位 ， 然 后 调用 select。 一 旦 发 
生 超时 ， 我 们 束 显 示 一 个 消息 并 跳 转 到 循环 开始 处 。 


显示 服务 器 的 应 答 


34-38 ”如 果 服 务 器 返回 一 个 数据 报 ， 我 们 束 把 它 显示 到 标准 输 
IH o 


处 理 ICMP 错 误 
39-48 如 果 到 icmpd 的 Unix 域 连接 变 为 可 读 ， 我 们 就 试图 读 入 


一 个 icmpd_err 结 构 。 如 果 读 入 成 功 ， 那 就 显示 由 icmpd 返 回 的 相关 
信息 


strerror Bre rer TALES OF A Tal eK a — PS oo BAG. 
ANSI C 没 有 就 该 函数 如 何 返 回 错 误 给 出 任何 说 明 。Solaris 上 的 手册 页 
面 说 ， 如 有 果 参 数 超出 有 效 范围 ， 该 男 数 惑 返回 一 个 空 指 针 。 可 是 这 却 
意味 着 如 下 代码 : 


printf("%s", strerror(arg)); 
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是 不 正确 的 ， 因 为 strerror 有 可 能 返回 一 个 空 指针 。 但 是 
FreeBSD 实 现 以 及 作者 们 能 够 找到 的 所 有 其 他 源 代码 实现 都 把 无 效 参 
数 人 处理 成 返回 一 个 指 癌 诸如 “Unknown error” 等 字符 串 的 指针 。 这 么 做 
意思 清楚 ， 也 使 得 上 述 代 码 不 会 出 错 。 然 而 POSIX 又 作 了 改动 ， 指 出 
由 于 没有 任何 返回 值 保留 用 于 指示 错误 ， 如 果 参 数 超出 有 效 范围 ， 该 
函数 就 把 errno 设 置 为 EINVAL。 (POSIX 未 就 出 错 情况 下 返回 的 指针 
给 出 任何 说 明 。) 这 就 意味 着 完全 符合 POSIX 的 代码 必须 先 把 errno 
设置 为 0， 再 调用 strerror 函 数 ， 然 后 测试 errno 值 是 否 等 
EINVAL, WRAL SABRE RAE ME © 


28.7.2 ”UDP 回 射 客 户 程序 运行 例子 


在 查看 icmpd 源 代码 之 前 ， 我 们 给 出 运行 本 客户 程序 的 一 些 例 
子 。 首 先 往 一 个 未 接 入 因特网 的 下地 址 发 送 数据 报 。 


freebsd % udpcli01 192.0.2.5 echo 
hi there 
socket timeout 


and hello 
socket timeout 


diMBixicmpdiErExfr, JF H.EHERRE A ER EHSSIRGSICMP “host 
unreachable” 错 误 ， 不 过 没有 接收 到 任何 ICMP 错 误 ， 而 且 我 们 的 应 用 
进程 发 生 超时 。 我 们 给 出 这 个 例子 是 为 了 强调 超时 仍然 是 必需 的 ， 诸 
如 “host unreachable” 等 ICMP 出 错 消息 的 产生 可 能 不 会 发 生 。 


我 们 的 下 一 个 例子 是 同一 个 不 在 运行 标准 echo 服 务 恬 的 主机 发 送 
目的 端口 为 标准 echo 服 务 需 的 数据 报 。 正 如 所 料 ， 我 们 会 收 到 一 个 


ICMPv4 “port unreachable” 错 误 。 


freebsd % udpcli01 aix-4 echo 
hello, world 


ICMP error: dest = 192.168.42.2:7, Connection refused, type = 3, 
code = 3 


我 们 使 用 IPv6 再 次 和 党 试 ， 也 如 愿 收 到 一 个 ICMPv6“port 
unreachable” 错 误 〈 我 们 对 过 长 的 输出 行 做 了 折 行 处 理 ) 。 


freebsd % udpcli01 aix-6 echo 
hello, world 
ICMP error: dest = [3ffe:b80:8d:2:204:acff :fe17:bf38]:7, 


Connection refused, type = 1, code = 


4 


28.7.3 icmpd 守 护 进程 


我 们 从 如 图 28-33 所 示 的 icmpd , h 头 文件 开始 讲解 我 们 的 icmpd 守 
护 程序 。 


iempdfempa.h 


1 fincluce  "unpicmpd.h" 

2 struct cliens [ 

3 int connfd; /* Unix domain stream socket te client */ 

4 int family: /* AP INET cr A? INET6 */ 

5 int lsort; /* local cort bound to clisnt's UD? socket */ 
€ /* network byte ordered */ 

7 ) client [PD_SETSIZE] ; 

L /* globals */ 

$ int fda, fdé, listenfs, maxi, maxzà, nready; 


10 fa ser rset, a'lset; 
11 struct sockaddr un cliaddr: 


12 /* Zunction prototypes */ 
13 int readsble cenn/int) ; 

14 int readable listenivoid!; 

15 int readsble v4 ivoid! ; 

16 :nt rcadzbic v5 |void! ; 


jempatempa. 4 


让 


图 28-33 ”icmpd 守 护 程 序 的 jcmpd , h 头 文 但 


clLient 数 组 


2-17 ”既然 icmpd 能 够 处 理 任意 数目 的 客户 ， 于 是 我 们 使 用 一 个 
client 结 构 数 组 来 保存 关于 每 个 客户 的 信息 。 该 结构 数组 类 似 于 我 
们 在 6.8 节 所 用 的 数据 结构 。 除 了 到 每 个 客户 的 Unix 域 已 连接 描述 符 
外 ， 我 们 还 保存 该 客户 的 UDP 套 接 字 的 地 址 族 (AF_INET 或 


AF INET6) 以 及 绑 定 在 该 套 接 字 上 的 端口 号 。 我 们 还 声明 各 个 函数 
原型 以 及 由 它们 共享 的 全 局 变量 。 
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28-3425 Emain KHR ŽA ° 


iempdřicinpd.c 


1 &tocluce "iemp3i.h* 

2 int 

3 main(-rt argc, cher **argv) 
4 1 

5 int i. sockfd; 

é N' rx spckeadro an sune; 


if (argc !s 1) 


t err suit ("usage: icmps*) ; 

à maxi = -1; /* index into rlient(] array */ 
10 fcr (i = 0; i e FD SXTSIZE: i++) 

11 cliert[-].connfü = -1; /* -1 indicates availahle entry */ 
12 F^ ZERO(GRa]set hy 

13 fd4 = Socket (AP_INET, SOCK_RAW, -PP3OTO ICND):; 

14 Fo SET!zZd1, Sallset); 

15 maxtd = tdd; 

16 ifdef IPV6 

1" fié = Socket (AF_THETS, SOCK RAW, TPFROTO TCMPYR; H 
18 FZ SETi-d6, &allseL); 

19 maxfd = max(maxfd, fdé!; 

20 endif 

a1 listenfd = Sccket;AF UNIX, SOCK STREAM, 0); 

E cun.gun familv = AP LOUAL.; 

23 stropy isun.sun path, ICM»D PATH) ; 

a4 unlink (LOMPD PATH) ; 

25 Bindilistentc, (SA *)usun, sizeof (sini); 

26 Listenilistecf^, LISTENJ ; 

27 F- SETIlistenfs sallset); 

28 maxfd = max(maxfd, listenfd): 


iempavicmpal.c 


图 28-34 ” main 函数 前 半 部 分 创建 套 接 字 
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初始 化 client 数 组 

9-11 通过 把 已 连接 套 接 字 成 员 设 置 为 -1 初始 化 client 数 组 。 
创建 套 接 字 


12-28 创建 3 个 套 接 字 : 一 个 原始 ICMPv4 套 Ber YR 始 
ICMPv6E3Z^E df —^ UnisksE IMER YF ° unlinkdgyr—1X3517 


icmpd 可 能 遗留 的 Unix 域 套 接 字 路 径 名 ，bind 它 的 众所周知 路 径 名 到 
这 个 Unix 域 套 接 字 ， 然 后 listen 外 来 连接 。 这 是 客户 connect 的 日 
标 套 接 字 。 计 算 select 和 为 调用 accept 所 分 配 的 套 接 字 地 址 结构 所 
需 的 最 大 描述 符 。 


图 28-35 给 出 main 函 数 的 后 半 部 分 。 它 古 一 个 无 限 循 环 ， 调 用 


select， 等 待 任 一 摘 述 符 变 为 可 读 。 


Wanpa/tempa.c 


29 frr 4 223) { 

30 rset - allset; 

31 nrsady = Select (maxfdil, arset, NULL, NULL, NULL}; 
12 if (RD ISSET(listenfd, grset) i 

32 it (readable l-cton() <= 0) 

34 continus; 

a" if (FD TSSET(fd4, &rset.)) 

36 if (readable v4(; z» 2) 

37 continue; 


38 +#ifdef [pve 


39 if (\FD_ISSET(fdé, &rcet)) 

46 if ‘readable w6(! ~= 2) 

41 zont inue: 

42 fendif 

45 for (i = Ô; i <= maxi; i¢e) { /* check all clients for data */ 
ad if | í(sock£3i = client [i] .connfd < 0) 

45 sont inuc ; 

46 if 'FD ISSET(so-ckfd, &rse-)! 

43 if \yeadable_corn(*) zm 0) 

18 break; {* no more readable descriptore */ 
49 } 

50 

51 exíic(o); 

S2 ) 


Wwanpa/iempe.c 


图 28-35 ”main 画 数 后 半 部 分 : 处 理 可 读 描述 符 


检查 监听 Unix 域 套 接 字 


32-34 ”首先 测试 监听 Unix 域 套 接 字 ， 若 已 就 绪 则 调用 
readable_listen。 存 放 select 返 回 的 可 读 描述 符 数 的 变量 
nready 是 一 个 全 局 变量 。 每 个 形 如 readable_XXX 的 函数 都 递减 该 
变量 ， 并 作为 函数 返回 值 返 回 它 的 新 值 。 当 该 值 到 达 0 时 ， 所 有 可 读 描 
述 符 都 已 被 处 理 ， 于 是 再 次 调用 select。 


777 


检查 原始 ICMP 套 接 字 


35-42 ” 先 测 试 原始 ICMPv4 套 接 字 ， 再 测试 原始 ICMPv6 套 接 
字 。 


检查 已 连接 Unix 域 套 接 字 


43-49 测试 每 个 已 连接 Unix 域 套 接 字 ， 其 中 任何 一 个 变 为 可 读 
意味 着 相应 客户 已 发 送 一 个 摘 述 符 ， 或 者 该 客户 已 终止 。 


图 28-36 给 出 的 readable_1isten 画 数 在 icmpd 的 监听 套 接 字 变 
为 可 读 时 被 调用 ， 表 示 出 现 一 个 新 的 客户 连接 。 


fompdlireadabie_listen.c 


1 #incluile "Lonpd.h" 


2 int 
3 re&dable .isten/void: 


$ int i, connfd; 

€ eceklen_t clilen; 

5 clilen = sizeof (cliaddyr); 

8 cennfd = accept (listenfd, (SA *)k^liaÓdr, &clilen); 

9 /* fing first availeble cl:enz[]| st-ucture */ 

10 fcr ji a 0; te FD S*TSIZEK; i++) 

1i if (client(i].connfd e C) ! 

12 clicnt |i] .conntd = cornEd; /* save descriptor */ 

13 break, 

14 ) 

15 iE (i == sU SEISLIZE) 1 

16 close (cormEd! ; /* can't handle new client, */ 

17 returní--nready); /* rudely close the new cornecticn */ 
1A } 

19 printtf!'new cormecticn, i = $3, connfd = td\n", i, connfd): 

20 FD_SETiconn=c, &a-lset!; /* add rew descriptor to set >/ 
21 if (ecemfdad > mexfd) 

a2 mamta - connfd; /* for select() */ 

23 iE (i » maxi) 

24 maxi = i; /* max index in client{) array */ 


f. 
wu 


raturn!--nready;; 


e? A 


iempe readable sisten.c 


图 28-36 ”处理 新 的 客户 连接 


7-25 接受 新 的 客户 连接 ， 并 选用 clLient 数 组 中 第 一 个 可 用 元 
素 。 本 函数 中 的 代码 复制 自 图 6-22 前 半 部 分 。 如 果 在 客户 数组 中 未 找 


到 数据 项 ， 我 们 融 直 接 关 闭 新 的 客户 连接 ， 转 而 处 理 当 前 的 客户 。 


图 28-37 给 出 readable_conn 函 数 的 前 半 部 分 ， 它 在 某 个 已 连接 
套 接 字 变 为 可 读 时 被 调用 ， 其 参数 为 相应 客户 在 cLient 数 组 中 的 下 
标 。 
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tcmpd/readable_conn.c 
1 £inclYue " (nx. h" 
2 int 
3 readable cormiirt i) 


af 


5 int unixfd, -ecvfd; 

6 cher ] 

7 esize t 7; 

8 socklen t len; 

9 struct sockaddr_storage as; 

16 unixfd = clianz [i].connfd; 

11 reevfd = -1: 

lz a= ( (n = Read_tdiunixtd, ác, 1, &rccvtd); == 2) | 

13 err rsgi"client $3 terminated, recvfd - td", i. recvfil; 
14 gora clienrdone; /* client procahly rermorated3 */ 
15 ) 

1€ /* data from client; shculd be descriptor */ 

17 i: (reevtd < 0) Í 

16 eir nsgí"read ^i Jid noL returt descriptor”); 

19 goto clienterr: 


20 } 
iompdlreadabl2 comic 


28-37 BEAR B AP ARANT REG KIRA 
读 取 客户 发 送 的 数据 及 可 能 有 的 描述 符 


13-18 调用 图 15-11 中 的 read_fd 函 数 读 入 来 自 客户 的 数据 和 可 
能 有 的 描述 符 。 如 果 返 回 值 为 0， 那 么 相应 客户 已 关闭 它 所 在 的 连接 
端 ， 这 可 能 由 进程 终止 引起 。 


为 了 在 应 用 进程 和 icmpd 之 间 传 递 摘 述 符 ， 我 们 可 以 使 用 Unix 域 
字 节 流 套 接 字 ， 也 可 以 使 用 Unix 域 数据 报 套 接 字 。 应 用 进程 的 UDP 套 
接 字 可 经 由 任 一 类 型 的 Unix 域 套 接 字 传 递 。 之 所 以 采用 字 节 流 套 搂 字 
是 为 了 检测 客户 何 时 终止 。 当 一 个 客户 终止 时 ， 它 的 所 有 描述 符 ( 包 
括 它 到 icmpd 的 Unix 域 连接 ) 都 被 目 动 天 闭 ， 这 号 告知 icmpd 从 


client 数 组 中 清除 关于 这 个 客户 的 信息 。 要 是 使 用 数据 报 套 接 字 ， 
我 们 惑 无 法 得 知客 户 何 时 终止 。 


16-20 如果 客 户 未 关闭 本 连接 ， 那 么 我 们 期 待 收取 一 个 摘 述 
IF ° 


图 28-38 给 出 readable_conn 画 数 的 后 半 部 分 。 


iciipdreaaable conr.c 


21 len - aizecf (sa); 

22 i^ (zetsockname!recv^d, (SA +*+) &ss, &len) < f) i 

23 err retí"getsocknsns error"); 

24 goto clicnterr; 

25 } 

26 client [i] .family - ss.ss_family; 

27 7 € (c^ iear fi) -lport s s xk Ger port (ISA +] ess, lent) zz 0) ( 
28 client (i) .lport = scck bind wildirecvfd, client [i] .family) ; 
29 if ‘clientli, .lcort <= 2) | 

36 err_reti"error binding ephemeral port*!; 

11 goro clieuterr; 

32 } 

33 ) 

34 Write(unixtd, "l1", 1'; /* tell client all OK */ 

35 Close(recvfd); /* all done with client's “DP socket */ 
3€ return (--nready) ; 

37 clíerterr 

38 Writc(unixtd, "0", li; /* tell client crror occurred */ 
39 cliertzoae: 

4n Close (umixfd); 

a1 i= (recvfd >= J) 

42 Close ;recvid;; 

42 FD CLR(urixfd, &allset'; 

44 client (i) coannfd = -1; 

as return (--nready) ; 

1€ ] 


icmipél/readabl? conm.c 


图 28-38 ”获取 客户 捆绑 在 UDP 套 接 字 上 的 端口 号 
获取 绑 定 在 UDP 套 接 字 上 的 端口 号 


21-25 icmpd 调 用 getsockname 以 获取 客户 捆绑 在 它 的 UDP 
套 接 字 上 的 端口 号 。 既 然 我 们 不 知道 该 为 这 个 套 接 字 地 址 结构 分 配 多 
大 的 缓冲 区 ， 于 是 我 们 使 用 一 个 sockaddr_storage 结 构 ， 该 结构 
既 足 够 大 又 适当 地 对 齐 ， 适 合 存放 系统 文 持 的 任何 套 接 字 地 址 结构 。 


26-33 把 客户 UDP 套 接 字 的 地 址 族 和 端口 号 存放 在 该 客户 的 
client 结 构 中 。 如 果 端 口号 为 0， 那 就 调用 我 们 的 sock_bind_wild 


函数 把 通 配 地 址 和 一 个 临时 端口 捆绑 到 这 个 套 接 字 ， 不 过 如 前 所 提 ， 
这 么 做 在 SVR4 实 现 上 行 不 通 。 


通知 客户 操作 成 功 

34 把 值 为 字符 “1 的 单字 节 数 据 发 送 回 客户 。 
关闭 客户 的 UDP 套 接 字 

35 ”我 们 已 经 在 由 客户 传递 来 的 UDP 套 接 字 的 副本 上 完成 相关 任 
务 ， 于 是 关闭 它 。 既 然 该 描述 符 是 客户 传递 来 的 ， 因 而 只 是 一 个 副 
本 ; 尽管 关闭 了 这 个 副本 ， 该 UDP 套 接 字 在 客户 中 仍然 是 打开 着 的 。 
处 理 错误 发 生 和 客户 终止 

37-45 如果 发 生 错 误 ， 那 就 把 值 为 字符 “0 的 单字 书 数 据 发 送 回 
客户 。 如 果 客 户 终止 ( 即 客户 关闭 了 所 在 的 连接 端 ， 那 就 关闭 本 
Unix 域 连接 的 服务 器 端 ， 并 从 select 的 描述 符 集中 清除 该 描述 符 。 
把 该 客户 的 cLient 结 构 中 的 connfd 成 员 设 置 为 -1， 以 指示 作为 
client 数 组 元 素 之 一 的 这 个 clLient 结 构 又 可 以 使 用 。 


779™ 
780 
FH readable_v4 Ave RUGICMPv4 Efe BD n SEA BE VA 


用 。 图 28-39 给 出 了 它 的 前 半 部 分 。 这 部 分 代码 类 似 我 们 早先 在 图 28-8 
和 图 28-20 中 给 出 的 ICMPv4 处 理 代码 。 


fompcdbreadchle_i4.c 


1 #incluce "icmed.h" 

2 #incluse «nstinst/in aystm.h-» 

i fincluze «nctinst/i2.h» 

4 fineluce «netinst/io icrp.h> 

5 fincluze «nstinst /udp.h> 

€ int 

7 readable v4 ivoid! 

£d 

E] int i. hler:, nen?2, icmplen, sport; 

10 char buf [VAXLTNE] ; 

11i caar s*cstr[7NET ADDRSTRLEN|, ds-str[INE^ ATDRSTRLEN]: 

12 Sa-Ze Lu: 

13 sccklen t ler; 

14 struez ip *ip. *hip; 

15 struc- icmp *icm:; 

16 strucz udphdr *ucp; 

17 struct scockacdr in from, dest; 

18 etruc- icmpd err icmpa err; 

19 lan - sizeof (from) ; 

20 n = Reacvfrom(fa4, buf, MAXLINE, U, (SA *) &from, Elen); 

ai printfi'$d bytes --Mbv4 from $9:*, 2, Sock ntop host((SA *) efron, 1en)!; 
22 ip = (struct ip *) buf; /* start cf IF header */ 

23 hle ip-»ip hl ce 2; /* length of TP header */ 

24 iomp = (s-ruct icmp *) {but + hleni1); /* star- of ICMP header */ 
25 iE ( (iampler = 3 - Alenl) < €: 

26 ezx quit("icwplen (8d) < 3*, icwplen): 

27 pr:ntf|' type = td, code = $dMn", icmp -iemp typc, some >icmp_cod=); 


icmpdireadebie v4.c 


图 28-39 ”处理 所 接 收 的 ICMPv4 数 据 报 ， 前 半 部 分 


这 部 分 代码 显示 每 个 接收 到 的 ICMPv4 消 息 的 有 关 信 息 。 它 们 是 在 
开发 本 守护 程序 时 为 便于 调试 而 增加 的 ， 当 时 可 以 基于 一 个 命令 行 参 
数 打开 这 些 输出 。 
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28-4024 HH readable vA4AERZWBSEoESDA ° 


tonimxdtircadabie wc 
26 iz (iemp »iewp typc == ICMP UNRZACH || 


29 lemp->icmp_type == ICMP TINXCEED | 

30 icmp-»icmp tvpe == ICMP SOURCEQUEN-H) { 

3i if (iemplen < 8 - 2U + 3) 

32 err_quit ("icmpicn jad) < 8 + 2C + E", icmplen); 

32 nin = (strucr in *) [buf + nleri - 8); 

34 Alen2 = hip-»ip hl << 2; 

35 princf£("\tsrcip = $2, datip = às, preto = $din'", 

3€ Inet ntop(AF TNET, &hip-»ip src, srcs-r, sizeof srcstr!), 
35 Iuet ntop(AF INET, &hip-»ip dst, dsts-r, sizeof Gststrl!), 
3t hip->ip p); 

39 if ihip--ip_p =- IPEROTC UDP) ( 

4n dp = (struct adpode *) (bu^ w hler] = A + h1&n2/; 

41 spor: = udp->uh sport; 

42 /* find client s Unix domain sockez, send headers ~/ 

42 far (i = 0: i «= maxi; i++) { 

44 if {client [i] .connfd s- 0 au 

as client [a] .famicy == AF INET && 

ác client[il.lport -- sport) | 

47 bzeroíLdest, s:zeof(dest):; 

46 dest .sin_tamily = A- INET; 

49 #ifdef HAVE SOCXADDR S^ LEN 

50 est .sin len = mi cect (lest); 

51 fendif 

Se memcpy(&dsst.s;n addr, ahip->ir 33r, 

3 sizecf (struct ir adir)); 

54 Oest.sin port = udp-»uh 3port: 

55 icmpd er-.icnzd type - icmp--icnmo zype; 

5€ icmpd er-.icnpd code = icmp-3icnp code; 

55 icmpd er-.icrrd len = sizeof(struct sockaddr in); 
5t memcpy (&icmpd err.iompd dest, &dsez, siseotidest)) ; 
59 /* couver. Lype & code Lc reasonable erens value */ 
50 iompd_ers.icncd_errno = EHOSTUNREACH; /* default */ 
51 if licmp-»icnz zyoe «= ICMP UNAE^CH) | 

62 if (icmp--icmp cods == ICMP UNRDACII PORT! 

63 iampd err.icm errno = ECONHREPFUSET; 

64 elsa if (icmp-sicmp cote -- ICMP UNKEACH NEaD*EAZ! 
55 icmpd err.icumpa crrno = EMSOSIZE; 

GC } 

55 Writeiclient[i].connfd, &icnpd err, sizeof (icmp err)) ; 
ek ) 

69 } 

70 } 

71 ) 

73 return(--nready);: 

»-1j 


icmpdreadcbie We 


图 28-40 ”处理 所 接收 的 ICMPv4 数 据 报 ， 后 半 部 分 
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检查 需 通 知 应 用 进程 的 消息 类 型 


29-31 我 们 只 把 类 型 为 目的 地 不 可 达 、 超 时 或 源 爆 火 的 ICMPv4 
消息 (图 28-30) 传递 给 相应 的 应 用 进程 。 


检查 UDP 出 错 信 息 ， 找 出 相应 客户 


34-42 ”hip 指向 所 接收 的 ICMP 消 息 中 跟 在 ICMP 首 部 之 后 的 IP 
首部 ， 它 是 引发 本 ICMP 错 误 的 那个 数据 报 的 人 P 首 部 。 我 们 验证 这 个 IP 
数据 报 是 一 个 UDP 数 据 报 ， 然 后 从 跟 在 IP 首 部 之 后 的 UDP 首 部 中 取出 
源 UDP 端 口号 。 


43-55 ”搜索 client 数 组 的 所 有 client 结 构 元 素 ， 寻 找 地 址 族 
和 端口 号 都 匹配 的 客户 。 如 果 找 到 这 个 客户 ， 那 就 构造 一 个 IPv4 套 接 
字 地 址 结构 ， 存 放 引 发 本 错误 的 那个 UDP 数据 报 的 目的 耻 地 址 和 目的 
端口 号 。 
构造 jcmpd_err 结 构 


56-70 构造 一 个 icmpd_err 结 构 ， 并 通过 到 达 相 应 客户 的 Unix 
域 连接 把 它 发 送出 去 。 如 图 28-30 所 示 ， 我 们 首先 把 ICMPv4 消 息 类 型 
和 代码 映射 成 某 个 errno 值 。 


783 


ICMPv6 错 误 由 我 们 的 readab1le_v6 画 数 处 理 ， 图 28-41 给 出 了 它 
的 前 半 部 分 。ICMPvV6 的 处 理 类 似 图 28-12 和 图 28-24 中 的 代码 。 


tompdireadehie_vé.c 


1 éincluce "ionga. h" 

2 #include -nstinst/in systm.h> 
3 #incluse «nstinst/io.h» 

4 #incluse «nstinst/ip icmp.h- 
s £incluce enetinst/udp.h» 


& tifüef  1Pv6 
7 


tincluzc «nctinct/i26.h» 
6 tincluie «netinst/icmp6.h- 
a tendif 
10 int 
11 readable vé (void) 
12: 
13 #ifGef TPV6 
14 int i, hlen2, icmpéler, sport; 
15 char buf [IVARLINZI; 
16 char svostr [INET6_ADDRSTRLEN), dststr[INET6é AZDSSTR-EN]: 
17 ss-ze t n; 
18 sccklen t len; 
19 struct ipo her *ip6, “«hipé; 
20 struct icmp hir  *icnpf; 
2i struct udphár *udp; 
z2 struct sockacdr in& from, dest; 
z3 struct icmpd_err icrpd er-; 
24 len = sizeot(from); 
45 n ~ kRecufrom(fde, but, MAXLINE. 0, (SA *) afron, alen); 
z6 prizntb|i'*d bytes -CMDvo trom *5:", 2n, Sock ntoc host (Eh *) atrom, Len}; 
27 iemp6 = ist-uct icrp5 hdr *) buf; /* star- of ICMPv6 header */ 
VE if (C Cionpélen = n) e 8) 
29 err quit("icmpelen (#2); < 8", icmpelsn); 
30 prlntf|' type - td, code = td\n", icnpó6-»icmp6 typ2, icmpé-»icmp6 codo); 


icompdreadebie v6. c 


图 28-41 处理 所 接收 的 ICMPv6 数 据 报 ， 前 半 部 分 


图 28-42 给 出 了 readable_v6 函 数 的 后 半 部 分 。 这 部 分 代码 类 似 
图 28-40: 先 检查 ICMP 错 误 类 型 ， 再 查看 引发 本 错误 的 IP 数 据 报 是 否 
为 一 个 UDP 数据 报 ， 然 后 构造 一 个 icmpd_err 结 构 发 送 给 相应 客户 。 
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fonpelreadchie_v6.c 


31 if (icmpé-2:2mz6 type == ICMPS DST UNREACH | 

32 icrps-»icmp5 type == ICMP6 PACKET TOC EIG || 

33 icrps-»icmp6 type -- ICMPS TIME EXCEEDED) 上 

34 if 'icmpolen ~ E+ 0: 

35 err quit(*'icnp&leai (4d) < & + 6", icrpálen!; 

3€ &ip6 = (struct ip€ hdr *) (but + 8): 

37 hlen2 = sizeof(struct iz6 hdr!; 

38 print (("\tsrecip = $s, datip = 9s, next hdr = 4d\n", 

39 Ine- ntop(AF_INET§$, uhipé->ips src, srcstr, sizesf(srestr)!, 
au lne- ntop(AF INET6, &hipe-»ip& cet, datetr, eiseof(dstetr)!, 
41 hipo--ipC nxt:; 

42 if 'uip6-»ip6 nxt == IPERCTO UDP) ( 

a: udp - (struct u2pndr *) (but + 8 - hlen2); 

44 cpert = udp-»uh czort; 

as /* find client's ‘nix demain socket, send headers */ 
a6 for (i = 0; i «= maxi; i++) | 

7 it ;clicnt[i).conntd >= 0 && 

46 client [il .femily == AP INET6 && 

49 vlient[i].lport zs spar) { 

30 bzero/&dect, eizeof(des-)!, 

51 dest.sinó fanily = AF INET6: 

52 $Bifdef MAVE SOCXATIDR SB LEN 

53 Gest.sins len ~ sizeof idest); 

34 #endir 

35 memcpy(&dest.sin6 addz, &hipC-2-p6 dst, 

56 sizeof (struct iné acdr]!; 

57 Gest.sine port = wip->uh dport; 

38 icmpd er-.icnpd type = icrp6é--icups_type; 

39 iempd err. icnr oxe = Pcwpé-»ieups eode; 

bU icmpd err.icnpd lan = sizeof (street sockaddr int); 
51 memcpy(&icmpd err.icmpd dest, Sdest, sizeof idest] ) | 
52 /^ Ver: type & vode to reasonable errno value */ 
$3 icmpd err.icnpá errno ~ EHOSTUNRBACH; /* default */ 
$4 if iicmp6-»icwpS type == ICMPé DET UNRZACH && 

55 ionp6->icmp6_code == IOMP6_DST_UNREACH_NOPORT! 
36 iempd@_err.icmpd_errno = SCONNREFUSED: 

57 if (icmp6-»icnpö type == ICMP6 PACKET TOO BIG) 

58 icmed_err.icmpd_errno » EMSCSIZE; 

5 Write/client[i'.connfd, &icmpd err, sizeof (icmpd err)); 
70 ) 

a } 

72 } 

73 ] 

74 ret urn (--nreeady] ; 

75 fendit 

?6 ] 


icompdreadchie vfi.c 


图 28-42 ”处理 所 接 收 的 ICMPv6 数 据 报 ， 后 半 部 分 


28.8 “小 结 
原始 套 接 字 提 供 以 下 3 个 能 力 。 


。 进程 可 以 读 写 ICMPv4、IGMPv4 和 ICMPv6 等 分 组 。 

。 进程 可 以 读 写 内 核 不 处 理 其 协议 字段 的 IP 数 据 报 。 

。 进程 可 以 自行 构造 IPv4 首 部 ， 通 常用 于 诊断 目的 〈 亦 或 不 当地 被 
黑客 们 利用 ) e 


ping 和 traceroute 这 两 个 常用 的 诊断 工具 使 用 原始 套 接 字 完 成 
任务 ， 我 们 自行 开发 的 这 两 个 程序 同时 支持 IPv4 和 IPv6。 我 们 还 自行 
开发 了 icmpd 守 护 程序 ， 使 得 UDP 应 用 进程 能 够 访问 由 自己 的 UDP 套 
接 字 异步 触发 的 ICMP 错 误 。 这 个 守护 程序 也 是 一 个 通过 Unix 域 套 接 字 
在 无 亲缘 关系 的 客户 和 服务 如 之 间 传 递 描 述 符 的 例子 。 


习题 


28.1 我们 说 过 IPv6 首 部 的 几乎 所 有 字段 以 及 所 有 扩展 首部 都 可 
以 通过 套 接 字 选 项 或 辅助 数据 由 应 用 进程 指定 或 获取 。 应 用 进程 无 法 
获取 或 指定 IPv6 数 据 报 中 的 哪些 信息 ? 


28.2 ”在 图 28-40 中 如 果 由 于 某 种 原因 客户 停止 从 通 往 ijcmpd 守 护 
进程 的 Unix 域 连接 读 入 数据 ， 然 而 来 目 icmpd 的 ICMP 错 误 信 息 却 大 量 
到 达 ， 那 将 会 发 生 什么 ? 最 简单 的 解决 办 法 是 什么 ? 


28.3 如果 我 们 指定 本 地 子 网 的 子 网 定 同 广播 地 址 运行 我 们 的 
ping 程 序 (注意 ， 路 由 器 通常 不 转发 子 网 定 问 广播 地 址 ) ， 它 将 正常 
工作 。 也 就 是 说 ， 即 使 我 们 不 设置 SO_BROADCAST 套 接 字 选项 ， 广 播 
的 ICMP 回 射 请 求 也 作为 一 个 链 路 层 广 播 帧 发 送 。 为 什么 ? 


28.4 如 果 使 用 我 们 的 ping 程 序 在 一 个 多 宿主 机 上 ping 所 有 主 
机 多 播 组 的 地 址 224.0.0.1， 将 会 发 生 什 么 ? 
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@ 需 清楚 的 是 ， 并 非 因为 该 头 文件 中 定义 了 某 个 协议 的 名 字 (如 
IPPROTO_EGP) 就 意味 着 内 核 必然 支持 这 个 协议 。 


@ 本 书 的 新 作者 在 此 验证 IPv4 首 部 确实 是 ICMPv4， 以 防 内 核 错 误 地 把 
非 ICMP 分 组 递送 到 原始 ICMP 套 接 字 完全 是 多 此 一 举 。 一 -一 译 者 注 


@ 本 书 第 3 版 不 再 讲解 的 X/Open 传 输 接 口 (XTI) API 在 这 方面 略 有 改 
善 ， 它 的 recvfrom 对 等 函数 (t rcvudata) 为 此 返回 出 错 代码 
TLOOK， 表 明 调 用 进程 早先 发 送 的 某 个 数据 报 引 发 了 一 个 错误 ， 应 用 
进程 随后 必须 调用 另 一 个 函数 (t rcvuderr) 获取 真正 的 错误 以 及 
引发 这 个 错误 的 数据 报 的 宿 地 址 和 目的 端口 号 。 然 而 这 个 办 法 存在 如 
下 问题 : 内 核 在 任意 时 刻 也 许 只 能 维持 这 些 异 步 错 误 之 一 的 有 关 信 
息 。 如 果 应 用 进程 发 送 了 (譬如 说 ) 3 个 数据 报 ， 而 且 有 2 个 引发 了 
ICMP 错 误 ， 那 么 只 有 其 中 一 个 异步 地 返回 给 应 用 进程 。 


第 29 章 ”数据 链 路 访问 
29.1 概述 


目前 大 多 数 操作 系统 都 为 应 用 程序 提供 访问 数据 链 路 层 的 强大 功 
o 这 种 功能 可 以 提供 如 下 能 力 。 


能 够 监视 由 数据 链 路 层 接收 的 分 组 ， 使 得 诸如 tcpdump 之 类 的 程 
FE E 够 在 普通 计算 机 系统 上 运行 ， 而 无 需 使 用 专门 的 硬件 设备 来 
监视 分 组 。 如 果 结 合 使 用 网 络 接口 进入 混杂 模式 (promiscuous 
mode) 的 能 力 ， 那么 应 用 程序 其 至 能 够 监视 本 地 电缆 上 流通 的 所 
有 分 组 ， 而 不 仅仅 是 以 程序 运行 所 在 主机 为 目的 地 的 分 组 。 


网 络 接口 进入 混杂 模式 的 能 力 在 日 益 普 及 的 交换 式 网 络 中 用 处 不 
大 。 这 是 因为 交换 机 仅仅 把 单 播 、 多 播 或 广播 4 分 组 代 递 到 数据 名 路 层 
目的 地 址 所 在 的 物理 端口 。 为 了 监 LIES UT 口 或 某 些 端口 的 分 
组 ， 监 视 端 口 必 须 配置 成 接收 其 他 端口 的 4 分 组 流通 ， 这 种 行为 称 为 监 
视 器 模式 (monitor mode) 或 端口 镜像 (port mirroring) 。 注 意 ， 许 多 多 
通常 被 你 认为 没有 交换 机 的 存储 转发 能 力 的 设备 实际 上 也 具备 这 种 能 
J, ED i Mbit/s C MU mde 
机 : 一 个 端口 上 连接 100 Mbit/s 系 统 ， 个 端口 上 连接 10 Mbit/s 系 


umb 
GG 


。 能 够 作为 普遍 应 用 进程 而 不 是 内 核 的 一 部 分 运行 某 些 程序 。 举 例 
来 说 RARP 服 务 器 的 大 多 数 Unix 版 本 是 普通 的 应 用 进程 ， 它 们 
从 数据 链 路 读 入 RARP 请 求 ， 又 往 数 据 链 路 写 出 RARP 应 答 
(RARP 请 求 和 应 答 都 不 是 IP 数 据 报 ) 。 
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Unix 上 访问 数据 链 路 层 的 3 个 常用 方法 是 BSD 的 分 组 过 滤器 BPF、 
SVR4 的 数据 链 路 提供 者 接口 DLPI 和 Linux 的 SOCK_PACKET 接 口 。 我 
们 首先 简要 介绍 这 3 个 数据 链 路 访问 接口 ， 然 后 讲解 1ibpcap 这 个 公 
开 可 得 的 4 分 组 捕获 夯 数 库 。 该 函数 库 适 用 于 所 有 这 3 个 接口 ， 使 用 它 可 


以 编写 独立 于 操作 系统 提供 的 实际 数据 链 路 访问 接口 的 程序 。 我 们 通 
过 开发 一 个 程序 来 讲解 该 画 数 库 ， 该 程序 向 一 个 名 字 服 务 器 发 送 DNS 
查询 (我 们 上 自行 构造 这 些 UDP 数 据 报 并 往 一 个 原始 套 接 字 写 出 它 

们 ) ， 然 后 使 用 1ibpcap 读 入 来 自 该 名 字 服 务 器 的 应 答 ， 以 全 判断 它 
是 否 开 启 了 UDP 校 验 和 。 


29.2 BPF: BSD 分 组 过 滤器 


4.4BSD 以 及 源 目 Berkeley 的 许多 其 他 实现 都 文 持 BSD 分 组 过 滤器 
(BSD Packet Filter, BPF) 。BPF 的 实现 在 TCPv2 第 31 章 中 讲解 。BPF 
的 历史 、BPF 伪 机 器 (pseudomachine) 的 描述 及 与 SunOS 4.1.x 上 NIT 
分 组 过 滤器 的 比较 参见 [McCanne and Jacobson 1993| 


在 支持 BPF 的 系统 上 ， 每 个 数据 链 路 驱动 程序 都 在 发 送 一 个 分 组 
之 前 或 在 接收 一 个 分 组 之 后 调用 BPF， 如 图 29-1 所 示 。 


| 应 用 进程 | 


应 用 进程 


BPF 


RHAG x 


图 29-1 (#FABPFEAK TZ 


TCPv2 图 4-11 和 图 4-19 给 出 了 某 个 以 太 网 接口 驱动 程序 中 这 些 调用 
的 例子 。 在 分 组 接收 之 后 尽早 调用 BPF 以 及 在 分 组 发 送 之 前 尽 晚 调 用 
BPF 的 原因 是 为 了 提供 精确 的 时 间 礁 。 


788 


尽管 往 数据 链 路 中 安置 一 个 用 于 捕获 所 有 分 组 的 “龙头 ”并 不 
难 ，BPF 的 强大 威力 却 在 于 它 的 过 滤 能 力 。 打 开 一 个 BPF 设 备 的 每 个 


应 用 进程 可 以 装载 各 自 的 过 滤器 ， 这 个 过 滤器 随后 由 BPF 应 用 于 每 个 
分 组 。 有 些 过 滤器 比较 简单 (例如 “udp or tcp” 只 接收 UDP 或 TCP 
分 组 ) ， 不 过 更 复杂 的 过 滤器 可 以 检查 分 组 首部 某 些 字段 是 否 为 特定 
值 。 举 例 来 说 ，TCPv3 第 14 章 中 使 用 如 下 过 滤器 : 


tcp and port 80 and tcp[13:1] & Ox7 != 0 


达成 只 收集 去 往 或 来 自 端口 80 的 设置 了 SYN、FIN 或 RST 标 志 的 
TCP 分 节 ， 其 中 表达 式 tcp[13:1] 指 代 从 TCP 首 部 开始 位 置 起 字 市 偏 
移 量 为 13 那 个 位 置 始 的 1 字 节 值 。BPF 实 现 一 个 基于 寄存 器 的 过 滤器 机 
器 ， 特 定 于 应 用 进程 的 过 滤器 束 通 过 过 滤器 机 器 应 用 于 每 个 接收 分 
组 。 尽 管 可 以 直接 使 用 这 个 伪 机 器 的 机 器 语言 (在 BPF 手 册页 面 中 讲 
解 ) 编写 过 滤器 程序 ， 最 简单 的 接口 却 是 使 用 我 们 将 在 29.7 节 讲解 的 
pcap_compile 函 数 把 ASCII 字 符 串 (例如 刚才 给 出 的 以 tcp 开 头 的 
那个 字符 串 ) 编译 成 BPF 伪 机 器 的 机 器 语言 。 


BPF 使 用 以 下 3 个 技术 来 降低 开销 。 


BPF 过 滤 在 内 核 中 进行 ， 以 此 把 从 BPF 到 应 用 进程 的 数据 复制 量 
减少 到 最 小 。 这 种 从 内 核 空间 到 用 户 空间 的 复制 开销 高 易 。 要 是 
每 个 分 组 都 如 此 复制 ，BPF 可 能 就 跟 不 上 快速 的 数据 链 路 o 
由 BPF 传 递 到 应 用 进程 的 只 是 每 个 分 组 的 一 段 定 长 部 分 。 这 个 长 
度 称 为 捕获 长 度 (capture length) ， 也 称 为 快照 长 度 (snapshot 
length， 简 写 为 snaplen) 。 大 多 数 应 用 进程 只 需要 分 组 首部 而 不 
需要 分 组 数据 。 这 个 技术 同样 减少 了 由 BPF 复 制 到 应 用 进程 的 数 
据 量 。 举 例 来 说 ，tcpdump 默 认 把 该 值 设置 为 906， 能 够 容纳 一 个 
14 P BJ ELKP Erb ^ — 405€ P BJIPvVe EH HP ^ — 1 207€ P Hy 
TCP 首 部 以 及 22 字 节 的 数据 。 如 果 需 要 显示 来 自 其 他 协议 ( 壁 如 
aa 的 额外 信息 ， 用 户 就 得 在 运行 tcpdump 时 增 大 该 
值 。 
BPF 为 每 个 应 用 进程 分 别 缓冲 数据 ， 只 有 当 缓 冲 区 已 满 或 读 超 时 
(read timeout) 期 满 时 该 缓冲 区 中 的 数据 才 复制 到 应 用 进程 。 该 
超时 值 可 由 应 用 进程 指定 。 例 如 tcpdump 把 它 设置 为 1000ms， 
RARP 和 守护 进程 把 它 设置 为 0 〈 因 为 RARP 分 组 数量 极 少 ， 而 且 
RARP 服 务 器 需要 一 接收 请 求 就 发 送 应 答 ) 。 如 此 缓冲 的 目的 在 
于 减少 系统 调用 的 次 数 。 尽 管 从 BPF 复 制 到 应 用 进程 的 仍然 是 相 
同 数量 的 分 组 ， 但 是 每 次 系统 调用 都 有 一 定 的 开销 ， 因 而 减少 系 


统 调 用 次 数 总 能 降低 开销 。 (举例 来 襄 ，APUE 图 3-1 比 较 了 以 在 1 
字 节 到 131072 字 节 之 间 变 化 的 不 同 数 据 块 大 小 读 一 个 给 定 文件 时 
read 系 统 调 用 的 开销 。) 


尽管 我 们 在 图 29-1 中 只 画 出 单个 缓冲 区 ，BPF 其 实 为 每 个 应 用 进 
程 维 护 两 个 缓冲 区 ， 在 其 中 一 个 缓冲 区 中 的 数据 被 复制 到 应 用 进程 期 
间 ， 男 一 个 缓冲 区 被 用 于 装填 数据 。 这 就 是 标准 的 双 缓 冲 (double 
buffering) 技术 。 
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我 们 在 图 29-1 只 展示 了 BPF 的 分 组 接收 ， 包 括 由 数据 链 路 从 下 方 

(网 络 ) 接收 的 分 组 和 由 数据 链 路 从 上 方 (IP) 接收 的 分 组 。 应 用 进 
程 也 可 以 写 往 BPF， 致 使 分 组 通过 数据 链 路 往外 (pn EM F) AG 
出 去 ， 不 过 大 多 数 应 用 进程 仅仅 读 目 BPF 而 已 。 没 有 理由 通过 写 往 
BPF 发 送 了 数据 报 ， 因 为 IP_HDRINCL 套 接 字 选 项 允许 我 们 写 出 任何 
期 望 类 型 (包括 IP 首 部 在 内 ) 的 IP 数 据 报 。 (我 们 将 在 26.7 节 给 出 如 此 
写 出 IP 数 据 报 的 一 个 例子 。) 写 往 BPF 的 唯一 理由 是 为 了 自行 发 送 不 
是 IP 数 据 报 的 网 络 分 组 ， 例 如 RARP 守 护 进 程 就 如 此 发 送 不 是 IP 数 据 报 
的 RARP 应 答 。 


为 了 访问 BPF， 我 们 必须 打开 一 个 当前 关闭 着 的 BPF 设 备 。 举 例 
来 说 ， 我 们 可 以 党 试 打 开 /dev/bpf9， 如 果 返 回 EBUSY 错 误 ， 那 就 党 
试 打 开 /dev/bpf1， 如 此 等 等 。 一 旦 打开 一 个 BPF 设 备 ， 我 们 可 以 使 
用 大 约 一 打 ioct1 命 令 来 设置 该 设备 的 特征 ， 包 括 : 装载 过 滤器 、 设 
置 读 超 时 、 设 置 缓冲 区 大 小 、 往 该 BPF 设 备 附 接 某 个 数据 链 路 、 开 启 
混杂 模式 ， 等 等 。 然 后 就 使 用 read 和 write 执行 JO。 


29.3 DLPI: 数据 链 路 提供 者 接口 


SVR4 通 过 数据 链 路 提供 者 接口 (Datalink Provider Interface, 
DLPI) 提供 数据 链 路 访问 。DLPI 是 一 个 由 AT&T 设 计 的 独立 于 协议 的 
访问 数据 链 路 层 所 提供 服务 的 接口 [Unix International 1991] 。 其 访 
问 通 过 发 送 和 接收 流 消息 (STREAMS message) 实施 。 


DLPI 有 两 种 打开 方式 : 一 种 方式 是 应 用 进程 先 打 开 一 个 统一 的 伪 
设备 ， 再 使 用 DLPI 的 DL_ATTACH_REQ 往 其 上 附 接 某 个 数据 链 路 (BU 
网 络 接口 ) ; 另 一 种 方式 是 应 用 进程 直接 打开 某 个 网 络 接口 设备 ( 例 
如 1e0) 。 无 论 以 哪 种 方式 打开 DLPI， 通 常 尚 需 为 提高 操作 效率 而 压 
入 2 个 流 模 块 (STREAMS module) : 在 内 核 中 进行 分 组 过 滤 的 pfmod 
模块 和 为 应 用 进程 缓冲 数据 的 bufmod 模 块 ， 如 图 29-2 所 示 。 


应 用 进程 | 


et THERETO TERES. 


Aye 


bu f mac 
{ 组 社区 ) 


pfmod 
(过 滤器 ) 


效 据 链 路 


图 29-2 使 用 DLPI、pfmod 和 bufmod 捕 获 分 组 


从 概念 上 说 ， 这 两 个 模块 类 似 上 一 市 讲解 的 BPF 开 销 降 低 技 术 : 
pfmod 支 持 使 用 盆 机 右 的 内 核 中 过 滤 ，bufmod 则 通过 支持 捕获 长 度 
和 读 超时 减少 数据 量 和 系统 调用 次 数 。 


但 BPF 与 pfmod 两 者 在 过 滤 屡 所 文 持 的 伪 机 器 类 型 上 存在 一 个 有 
趣 的 差别 。BPF 过 滤 絮 使 用 一 个 有 问 无 环 控制 流 图 (CFG) ，pfmod 
过 滤器 则 使 用 一 个 布尔 表达 式 树 。 前 者 自然 地 映射 成 寄存 器 型 机 妖 代 
码 ， 后 者 自然 地 映射 成 堆栈 型 机 器 代码 [McCanne and Jacobson 
1993| 。 这 篇 论文 指出 BPF 使 用 的 CFG 实 现 通常 比 5pfmod 使 用 的 布尔 
表达 式 树 实现 快 3~20 倍 ， 有 具体 取决 于 过 滤器 的 复杂 程度 。 

另外 ，BPF 总 是 在 复制 分 组 之 前 做 出 过 滤 决 策 ， 以 省 却 复制 将 被 
丢弃 的 分 组 。DLPI 则 因为 与 pfmod 模 块 相对 独立 而 可 能 不 得 不 增加 内 
核 中 的 分 组 复制 次 数 ， 具 体 取 决 于 实现 。 
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29.4 Linux: SOCK PACKET#I 
PF PACKET 


Linux 移 后 有 两 个 从 数据 链 路 层 接收 分 组 的 方法 。 较 旧 的 方法 是 创 
建 类 型 为 SOCK_PACKET 的 套 接 字 ， 这 个 方法 的 可 用 面 较 宽 ， 不 过 缺 
乏 灵 活性 。 较 新 的 方法 创建 协议 族 为 PF_PACKET 的 套 接 字 ， 这 个 方法 
引入 了 更 多 的 过 滤 和 性 能 特性 。 我 们 必须 有 足够 的 权限 才能 创建 这 两 
种 套 接 字 (类 似 原始 套 接 字 的 创建 ， 而 且 调 用 socket 的 第 三 个 参 
数 必 须 是 指定 以 太 网 帧 类 型 的 某 个 非 0 值 。 创 建 PF_PACKET 套 接 字 
时 ， 调 用 socket 的 第 二 个 参数 既 可 以 是 SOCK_DGRAM， 表 示 扣 除 链 
路 层 首部 的 “者 熟 ”(cooked) 分 组 ， 也 可 以 是 SOCK_RAW， 表 示 完 整 
的 链 路 层 分 组 〈 以 太 网 帧 ) 。SOCK_PACKET 套 接 字 只 返回 以 太 网 
帧 。 举 例 来 说 ， 从 数据 链 路 接收 所 有 帧 应 如 下 创建 套 接 字 : 


fd = socket(PF_PACKET, SOCK_RAW, htons(ETH_P_ALL)); 
T */ 


y 


fd = socket(AF INET, SOCK PACKET, htons(ETH P ALL)); /* 较 旧 方法 


* 


由 数据 链 路 接收 的 任何 协议 的 以 太 网 帧 将 返回 到 这 些 套 接 字 。 


N 
co 
LA 


MRRP, AGRA PODEERESRCT: 


fd = socket(PF PACKET, SOCK RAW, htons(ETH P IP)); 
*/ 


fd - socket(AF INET, SOCK PACKET, htons(ETH P IP)); 
法 */ 


用 作 socket 调 用 第 三 个 参数 的 常 值 还 有 ETH_P_ARP、 
ETH P_IPV6% ° 


指定 这 个 协议 参数 为 某 个 ETH_P_xxx 常 值 是 在 告知 数据 链 路 应 该 
把 由 它 接收 的 帧 中 哪些 类 型 的 帧 传递 给 所 创建 的 套 接 字 。 如 果 数 据 链 
路 支持 混杂 模式 (例如 以 太 网 ) ， 那 么 需要 的 话 还 必须 把 设备 投入 混 
杂 模 式 。 对 于 PF_PACKET 套 接 字 ， 把 一 个 网 络 接口 投入 混杂 模式 通过 
设置 PACKET_ADD_MEMBERSHIP 套 接 字 选项 完成 ， 在 作为 
setsockopt 第 四 个 参数 传递 的 packet_mreq 结 构 中 需 指定 网 络 接 
口 和 值 为 PACKET_MR_PROMISC 的 行为 。 对 于 SOCK_PACKET 套 接 
字 ， 投 入 混杂 模式 通过 使 用 SIOCGIFFLAGS ioct1 获 取 标 志 ， 设 置 
IFF_PROMISC 标 志 ， 再 使 用 SIOCSIFFLAGS 存 储 标 志 。 不 幸 的 是 ， 
若 采 用 此 方法 ， 多 路 混杂 监听 程序 可 能 互相 干扰 ， 而 且 设 计 得 不 好 的 
程序 可 能 在 退出 后 还 保持 着 混杂 模式 。 


Linux 的 数据 链 路 访问 方法 相 比 BPF 和 DLPI 存 在 如 下 差别 。 


Linux 方 法 不 提供 内 核 缓冲 ， 而 且 只 有 较 新 的 方法 才能 提供 内 核 过 
iE 〈 通 过 设置 SO_ATTACH_FILTER 套 接 字 选 项 安装 ) 。 尽 管 这 
些 套 接 字 有 普通 的 套 接 字 接 收 缓冲 区 ， 但 是 多 个 帧 不 能 缓冲 在 一 
起 由 单个 读 入 操作 一 次 性 地 传递 给 应 用 进程 。 这 么 一 来 势必 增长 
从 内 核 到 应 用 进程 复制 大 量 数据 所 涉及 的 开销 。 

Linux 较 旧 的 方法 不 提供 针对 设备 的 过 滤 。 ( 较 新 的 方法 可 以 通过 
调用 bind 与 某 个 设备 关联 。) 如 果 调 用 socket 时 指定 了 
ETH_P_IP， 那 么 来 自任 何 设备 (例如 以 太 网 、PPP 链 路 、SLIP 链 
路 和 回馈 设备 ) 的 所 有 IPv4 分 组 都 被 传递 到 所 创建 的 套 接 字 。 
recvfrom 将 返回 一 个 通用 套 接 字 地 址 结构 ， 其 中 的 sa_data 成 
员 含有 设备 名 字 (例如 eth0) 。 应 用 进程 然后 必须 自行 丢弃 来 自 
任何 非 所 关注 设备 的 数据 。 这 里 的 问题 仍然 是 可 能 会 有 太 多 的 数 
据 返 回 到 应 用 进程 ， 从 而 妨碍 对 于 高 速 网 络 的 监视 。 


29.5 libpcap: 分 组 捕获 画 数 座 


1ibpcap 是 访问 操作 系统 所 提供 的 分 组 捕获 机 制 的 分 组 捕获 函数 
库 ， 它 是 与 实现 无 关 的 。 目 前 它 只 文 持 分 组 的 读 入 (当然 只 需 往 该 画 
数 库 中 增加 一 些 代 码 行 束 可 以 让 调用 者 写 出 数据 链 路 分 组 ，。 下 一 市 
讲解 的 libnet 函 数 库 不 仅 支 持 写 出 数据 链 路 分 组 ， 而 且 可 以 构造 任 
意 协 议 的 分 组 。 


792 


libpcap 目 前 支持 源 自 Berkeley 内 核 中 的 BPF ` Solaris 2.x 和 HP- 
UX 中 的 DLPI、SunOS 4.1.x 中 的 NIT、Linux 的 SOCK_PACKET 套 接 字 和 
PF_PACKET 套 接 字 ， 以 及 其 他 若干 操作 系统 。tcpdump 就 使 用 该 函 
数 库 。1ibpcap 由 大 约 25 个 函数 组 成 ， 不 过 我 们 不 准备 单独 讲解 这 些 
函数 ， 而 是 在 再 下 一 节 以 一 个 完整 的 例子 给 出 其 中 常用 函数 的 实际 用 
库 函 数 均 以 pcap_ 前 缀 打头 。pcap 手 册页 面 详 细 讲 解 了 这 些 
eK] ° 


该 函数 库 可 以 从 http:/www:tcpdump.org/ 公 开 获 取 。 


29.6 libnet: 分 组 构造 与 输出 函数 库 


libnet 函 数 库 提 供 构 造 任意 协议 的 分 组 并 将 其 输出 到 网 络 中 的 
eee 以 与 实现 无 关 的 方式 提供 原始 套 接 字 访问 方式 和 数据 链 路 访 
JA] 77 EL ° 


libnet 隐 藏 了 构造 IP、UDP 和 TCP 首 部 的 许多 细节 ， 并 提供 简单 
且 便 于 移植 的 数据 链 路 和 原始 三 接 字 写 出 访问 接口 。 与 1ibpcap 一 
样 ，1Libnet 也 由 许多 函数 组 成 。 我 们 将 在 下 一 节 给 出 的 例子 中 展示 
其 中 若干 个 函数 的 用 法 ， 并 与 直接 使 用 原始 套 接 字 所 需 的 代码 相 比 
较 。1Libnet 的 所 有 库 画 数 均 以 Libnet_ 前 缀 打头 。1Libnet 手 册页 面 
和 在 线 手 册 详 细 讲解 了 这 些 函 数 。 


libnet 20% nJ LA Mhttp://www.packetfactory.net/libnet/ 7T 2X 
取 ， 在 线 手册 是 http:/www.packetfactory.neUlibnetmanual/。 编 写本 书 
时 唯一 可 用 的 手册 是 不 再 文 持 的 版 本 1.0 的 ; 受 文 持 的 版 本 1.1 在 API 上 
变动 较 大 。 本 例子 是 用 版 本 1.1 的 API。 


29.7 “检查 UDP 的 校 验 和 字段 


我 们 现在 开发 一 个 例子 程序 ， 它 同一 个 名 字 服 务 器 发 送 含有 某 个 
DNS 查 询 的 UDP 数 据 报 ， 然 后 使 用 分 组 捕获 画 数 库 读 入 应 答 。 本 例子 
程序 的 目的 古 确 定 这 个 名 字 服 务 右 是 否 计算 UDP 校 验 和 。 对 于 IPv4， 
UDP 校 验 和 的 计算 是 可 选 的 。 如 今 大 多 数 系统 默认 就 开启 校 验 和 ， 不 
过 较 老 的 系统 〈 尤 如 SunOS 4.1.x) 默认 禁止 校 验 和 。 当 今 所 有 系统 

(特别 是 运行 名 字 服 务 器 的 系统 ) 都 应 该 总 是 开启 UDP 校 验 和 ， 否 则 
受 损 的 数据 报 有 可 能 破坏 服务 句 的 数据 库 。 


开启 和 禁止 UDP 校 验 和 通常 是 基于 系统 范围 设置 的 ， 如 TCPv1 附 
KEPI 。 


我 们 将 自行 构造 UDP 数据 报 〈 即 DNS 查询 ) ， 并 把 它 写 出 到 一 个 
原始 套 接 字 。 这 个 查询 使 用 普通 的 UDP 套 接 字 就 可 以 发 送 ， 不 过 我 们 
想 展示 如 何 使 用 IP_HDRINCL 套 接 字 选项 构造 一 个 完整 的 IP 数 据 报 。 


793 
另 一 方面 ， 我 们 无 法 在 从 普通 UDP 套 接 字 读 入 时 获取 UDP 校 验 


和 ， 使 用 原始 套 接 字 也 无 法 读 入 UDP 或 TCP 分 组 (28.4 节 ) 。 因 此 我 
分 组 捕获 机 制 获 取 含 有 名 字 服 务 器 的 应 答 的 完整 UDP 数据 


我 们 还 检查 所 获取 UDP 首部 中 的 校 验 和 字段 ， 如 果 其 值 为 0， 那 么 
e e 我 们 还 给 出 使 用 Libnet 编 写 的 
相同 程序 。 


图 29-3 汇 总 了 本 程序 的 操作 。 


应 用 进程 


ker 


M: 


ud Ga EE LL XEM. 


分 组 捕获 


-一 一 二 一 二 一 一 一 一 o» 


UDP 数据 报 〈 名 罕 服 务 跨 应 答 ) 


开启 UDP 校 验 和 的 应 用 程序 


图 29-3 ”检查 某 个 名 字 服 务 器 是 


我 们 把 目 行 构造 的 UDP 数据 报 写 出 到 原始 套 接 字 ， 人 然后 使 用 
1ibpcap 读 回 其 应 答 。 注 意 ，UDP 模 块 也 接收 到 这 个 来 目 名 字 服 务 峰 
的 应 答 ， 并 将 响应 以 一 个 ICMP 端 口 不 可 达 错 误 ， 因 为 UDP 模块 根本 不 
知道 我 们 为 目 行 构造 的 UDP 数据 报 选用 的 源 问 口号。 名 字 服 务 器 将 忽 
略 这 个 ICMP 错 误 。 我 们 同时 指出 ， 使 用 TCP 编 写 一 个 如 此 形式 的 测试 
程序 比较 困难 ， 因 为 尽管 我 们 很 容易 把 目 行 构造 的 TCP 分 世 写 出 到 网 
络 ， 但 是 对 于 我 们 如 此 产生 的 TCP 分 世 的 任何 应 答 却 通常 导致 我 们 的 
TCP 模 块 响应 以 一 个 RST， 结 果 是 连 三 路 握手 都 完成 不 了 。 


绕 过 这 个 难题 的 方法 之 一 是 以 属于 所 连接 子 网 的 某 个 当前 未 被 使 
用 的 IP 地 址 为 源 地 址 发 送 TCP 分 节 ， 并 且 事 先 在 发 送 主 机 上 为 这 个 新 
IP 地 址 增加 一 个 ARP 表 项 ， 使 得 发 送 主机 能 够 回答 对 于 这 个 新 地 址 的 
ARP 请 求 ， 但 是 不 把 这 个 新 IP 地 址 作为 别名 地 址 配置 在 发 送 主 机 上 。 


I 


REE AIS ENL EBUIPER 议 栈 丢 弃 所 接收 的 目的 地 址 为 这 个 新 地 址 
的 分 组 ， 前 提 是 发 送 主机 并 不 用 作 路 由 器 。 
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图 29-4 是 构成 本 程序 的 函数 的 汇 忌 。 


E main Y 


ae Se 
T ud i 
ot 
C op open pcap L9 — u test udp v2 


调用 : 
peap_lookupdev QJ s "he 
pcap open live a may 


pcap lookupnet (end | dns que C  udp read > 
pcap compile ( 见 图 29-17) 
pcap setfilter 

pcap dartalink udp d =a. 


图 29-4 _ udpcksum 程 序 中 的 函数 汇总 


图 29-5 给 出 头 文件 udpcksum.h， 它 包含 我 们 的 基本 头 文件 


rH h 以 及 访问 IP 和 UDP 分 组 首部 的 结构 定义 所 需 的 各 个 系统 头 文 
f 


udpeksuntudpeksum. h 


i #inclede * unp . hi! 
2 #include «pcap.h* 


3 4inelude «nezinec/in cvctm.n» /* required for ip.h */ 
4 #include xnezinec/in.b» 

5 4include «ne-inec/ip.b» 

6 4inciude «nezinec/ip var.n» 

7 #inelude «nezinec/ucp.h» 

8 4include «necinecz/udp var.h» 

9 3incivde ene-/if.h» 


10 4include «nezinec/if etner.h> 


1l 4detane TIL OJT 61 /* outgoing TIL */ 
12 /* declare glo2al ve-iables */ 

13 exberbo struct. sockaddr Adest, *10c81; 

14 extern Bocklen t destler., lccallen; 

15 exterr int datalink; 

16 extern char *device; 

17 extern pcap t "pdy; 

18 extern int  rawfdj; 


18 extern 
20 extern 
21 extern 


23 vaid 
char 
vaid 
vaid 
void 
void 
void 
struct 


tu NON) NY NY NY ND 
ovo Janse 


N 
OO 
Ul 


int snaplen; 
int verbcss; 
int  zerosum; 


/* fanction proatatyses */ 
cleanup (intt; 
*next_peap Cink *j; 

open cu-pat (void); 

open zcap(void): 

seni ins query (void) ; 

test udp'void!; 

usp_write(char *, inti; 
udpiphdr *udp rcad!voii; — 

udpecksaviuapeksum,h 


图 29-5 udpcksum. h3 cfr 


3-10 处理 IP 和 UDP 首部 字段 需要 额外 的 网 际 网 头 文 件 。 
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定义 一 些 全 局 变量 和 相关 函数 的 原型 。 


图 29-6 给 出 main 函 数 的 第 一 部 分 。 


m 


om uu t 


tcdpakstunnnain.c 


#include "u3pcksur.2a" 
/* DefinZ qlobal variables */ 
Gzruct sockaddr *dcor, *local; 
ecruct gocckaddr in localiookup; 
socklen t destlen, locallen; 
int datalink; /* from pcap datalink(), ir «net/bof-h~ */ 
char — *device; /* pcap device */ 
pcep t *rd; /* packet capture struct pointer */ 
int rawfrü: /* raw socker to write on */ 
ant snaples = 200; /* amount of data to capture */ 
int verhose; 
int zerosum; /* send UDP query with no checksum */ 
static voit usage (canst. char à); 
-nt 


main!inz arqo, char *arqv[.) 


c, lopt=6; 


char "ptr, localname[1024], *localport: 
etruct addrirfo *aip; 


udpcksiminain. c 


图 29-6” main 函数 :定义 


各 29-7 给 出 main 函 数 的 下 一 部 分 ， 它 处 理 命 令 行 参数 。 


ucdpzksewntain.c 
opter: = 0; /^ do't want getopl i) writing Lc stderr */ 
while ( (c = gatopriarge, argu, "Oi:l:v")) :- -2) { 
switch ic) | 
case U's 
zerosum = 1; 
break; 
case 'i': 
device = optarg; /* peap device */ 
break; 
zase 'l': /* local IP address amd port $: a.b.c.d.p */ 
if ; (pt = strrenr(optarg, '.')) == NULL) 
usage i "invalid 1 option"); 
*porti = 0; f* null replaces tina. period */ 
localpcrt - ptr; /* service name or port mmber */ 
strnopyílocslname, op-arg, sizeof (lo-alname)!; 
lopt = 1r 
break; 
sage ‘v's 
verbose - 1; 
break; 
case '?': 


usage ("unrecognized option"); 
} 


udpoksum/main. c 


图 29-7 mainkkax: 处 理 命令 行 参 数 


处 理 命令 行 参数 


20-25 调用 getopt 处 理 命令 行 参数 。-0 选 项 即 要 求 不 设置 
UDP 校 验 和 就 发 送 UDP 查 询 ， 以 便 查 看 服务 器 对 它 的 处 理 是 否 不 同 于 
对 设置 了 校 验 和 的 数据 报 的 处 理 。 
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26-28 ”-i 选 项 用 于 指定 接收 服务 絮 的 应 管 的 接口 。 如 采 这 个 接 
口 未 曾 指定 ， 分 组 捕获 函数 库 将 会 选择 一 个 ， 不 过 选 定 的 接口 在 多 宿 
主机 上 也 许 不 正确 。 从 分 组 捕获 设备 恋 入 与 从 普通 套 接 字 读 入 的 差别 
之 一 驶 体现 在 此 : 使 用 套 接 字 的 话 我 们 可 以 通 配 本 地 地 址 ， 从 而 允许 
我 们 接收 到 达 任 意 接 口 的 分 组 ， 然 而 如 琳 使 用 分 组 捕获 设备 ， 我 们 就 
只 能 在 单个 接口 上 接收 到 达 的 分 组 。 


我 们 指出 Linux 的 SOCK_PACKET 方 法 并 没有 把 它 的 数据 链 路 捕获 
限定 在 单个 设备 。 尽 管 如 此 ，1ibpcap 却 基于 其 默认 设置 或 我 们 的 -i 
选项 提供 限定 接口 形式 的 过 滤 。 


29~36 -1 选项 用 于 指定 源 耻 地 址 和 源 端 口号 。 在 本 选项 的 参数 
端口 号 (或 服务 名 ) 是 其 中 最 后 一 个 点 号 之 后 的 部 分 ， 源 IP 地 址 
中 最 后 一 个 点 号 之 前 的 部 分 。 


rn, 
是 其 
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telpoksemvintain.c 
if (optind t= argc-2! 
usags("nissing <host> and/or <serv>"); 


/* convert destination rare and service */ 
aip - Host serv(arav[optind], arqv;cpcindel., AP INET, SOCK DGRAM), 
dest = aip- »3- addr; /* dcn't f-eesdirinfo() */ 
destlen = zip-»ai addrlen; 


/ 
Need local IP address for source I? address for UDP datagrams. 
Can't specify 0 and let IP choase, as we nerd te kncw it for 
rhe psenficheader to calculata rhe UDP checksum 

If -l optior zupplied, then use those values; otherwise. 
connect a UDP socket to the destination to determine the right 
* source address. 


ree kRotoc 


"ý 
it (1opt) { 
/* convert local nane and service */ 
aip = Fost_serv(localname, localpar-, AF TNET, SOCK_DGRAM) ; 
local = aip-sai_addr; /* don't frseaddrin?o() */ 
locallen = aip->ai addrlen: 
} else ( 
int S; 
S = Socket (AF INET, SCCK_IGRAM, 0); 
Connect [s, des-, destler); 
/* kernel chooses correct local address for dest */ 
JYoallen = steer? (Loca lockup) ; 
local ~ (struct sockaddr *} siccallookup: 
Setesckname ic, local, &locallen! ; 
i= (locallcokup.sin addr.s adda == htorl(-NACDR ANY): 
ere quit ("Can't detemine local address - use -1\n"): 
close(s); 
} 
open_cutput () , /* open output, either raw scckel or libnet */ 
ape peapt) : /* open packet capture device 4/ 
seraddi(gecuid();: /* don'r nesd superuser privileges anymore */ 


Signal (SIGTERM, claanup); 
Siqnal (SIGINT, cleanup! , 
Signal (SIGRUP, cleanup); 
resr udpi!; 


cleanup (0! ; 


udpoksim/niain.c 


图 29-8 maine: 转换 主机 名 和 服务 名 ， 创 建 套 接 字 


处 理 目 的 主机 名 和 端口 


46-49 ”验证 剩余 命令 行 参数 恰好 是 两 个 ， 运行 DNS 服 务 右 的 目 
的 主机 名 或 I1P 地 址 ， 以 及 服务 器 的 服务 名 (domain) 或 端口 号 


(53) 


。 调 用 host_serv 把 这 两 个 参数 转换 成 一 个 套 接 字 地 址 结构 ， 


并 把 指 癌 该 结构 的 指针 存 入 dest。 


处 理 本 地 主机 名 和 端口 


50-74 如 果 本 地 主机 名 (或 IP 地 址 ) 和 端口 已 经 作为 命令 行 -1 
选项 的 参数 指定 ， 那 就 对 它们 执行 同样 的 转换 ， 并 把 指向 转换 出 的 套 
接 字 地 址 结构 的 指针 存 入 local。 否 则 我 们 通过 把 一 个 UDP 套 接 字 连 
接 到 目的 地 确定 由 内 核 选 定 的 本 地 IP 地 址 和 临时 端口 号 ， 存 放 在 由 
local 指 向 的 套 接 字 地 址 结构 中 。 既 然 我 们 将 自行 构造 DNS 查 询 的 IP 
首部 和 UDP 首部 ， 在 写 出 该 UDP 数据 报 之 前 我 们 必须 知道 源 IP 地 址 。 
我 们 不 能 让 它 保留 0 值 以 便 由 人 P 模 块 为 它 选择 实际 值 ， 因 为 它 是 UDP 伪 
o (我 们 稍 后 讲解 ) 的 一 部 分 ， 而 UDP 校 验 和 计算 必须 使 用 伪 首 


创建 原始 套 接 字 并 打开 分 组 捕获 设备 


75-76 调用 open_output 函 数 创建 一 个 原始 套 接 字 并 开启 
IP_HDRINCL 套 接 字 选项 ， 我 们 于 是 可 以 往 这 个 套 接 字 写 出 包括 卫 首 
部 在 内 的 完整 IP 数 据 报 。open_output 还 有 一 个 使 用 Libnet 实 现 的 
版 本 。 然 后 调用 我 们 接着 给 出 的 open_pcap 画 数 打 开 分 组 捕获 设备 。 


改变 权限 并 建立 信号 处 理 函 数 


77-80 创建 原始 套 接 字 需 要 超级 用 户 特 权 。 打 开 分 组 捕获 设备 
通常 同样 需要 超级 用 户 特权 ， 不 过 具体 取决 于 实现 。 璧 如 说 对 于 
BPF， 管 理 员 可 以 根据 系统 所 需 设 置 /dev/bpf 设 备 的 访问 权限 。 有 如 
然 已 经 完成 特权 操作 ， 我 们 于 是 放弃 这 个 额外 的 特权 ， 假 定 这 个 特权 
确实 是 因为 程序 文件 具有 setuid 到 root 的 属性 而 额外 获取 的 。 具 有 
超级 用 户 特权 的 进程 调用 setuid 将 把 它 的 实际 用 户 ID、 有 效用 户 ID 
以 及 保存 的 重 设 用 户 ID (set-user-ID) 都 设置 为 当前 的 实际 用 户 ID 

(getuid 的 返回 值 ) 。 为 了 防备 用 户 在 程序 运行 完 之 前 强行 终止 
它 ， 我 们 要 建立 一 些 信号 处 理 函 数 。 


执行 测试 与 清理 
81-82 test udp/EZ& (29-10) 进行 本 程序 的 测试 任务 后 返 


E] e cleanup (129-18) 显示 来 自分 组 捕获 函数 库 的 统计 结果 后 
终止 进程 。 


&29-925 H open_pcap žit, © Amaininaia AOSTA 28183 
获 设备 。 


ucljn-Ksinirpeay. i 
7 dinclale "udpck sim. h" 
2 fdefine MC "udp and sre host ts and src perc $d” 
3 void 
4 open_pear (void) 
5.1 
6 uinc32 t lccalaec, netmesk; 
E char cmd .MAXLINE], errzuf [ECAP ERRBUF SIZE] ' 
8 atrl lINET ADDRSTRLEN|, atr2[|INET_ADDRSTRLEN] ; 
a struct bpf program fcoie; 
16 it (device == NULL) [ 
11i if | idevice - pcsp icoxupdey(errbuft)) -- NULL! 
2 rr quit('pcap lockup: bo", crrbut); 
13 ) 
14 prink? ("device = gain", device; 
15 /* hardcode: promisc-0, to mg-500 */ 
1e iz ( (pd = poar open live(device, snaplen, 0, 507, errbuz); «= NULL) 
7 err quit('pcap open .ive; $s', errbutl; 
18 iT (peap leokupnet (device, &localwn, &nebmask, errbuf) c 0) 
19 arr quit('pcap lookupnec: ts', errbuf); 
20 it (verbose) 
21 printf {"localnet = is, netmask = %s\n", 
22 Ize- ntop(AF INET, &locelnet, stri, sizeotistr1]), 
23 Inet ntop(AF INET, &ne-mask, str2, eiazeof(setr2)]):; 
24 snprintf(cwd, sizeof(cmd', CMO, 
25 Sock nop bost (dest, des len], 
26 nzons(sock get pert idest, destlsn))); 
27 a= (verbooc] 
26 prinLf({"omd = ts\n", cued); 
29 if (peap_ccmpeile(pd, afcose, cmd, 0, netmask) < 0) 
30 rr quit ("peap compi-c: Ya", pcap scterr(pd)}; 
31 it (peap_setfilter(pd, Gisode) ~ 2) 
32 err quit ("peap_serfi°’ cer: ta, peap_gererr(pd)); 
33 if ( (Gatalink = peap datalinx(pd)) < a) 
34 err_quit ("peap_satalink: ts", peep _geterr ipdi); 
35 i* (verbose] 
36 printf ("datalink = &dÀn", datalink), 
J 
| ndpcksmmpean.c 


jus 


日 捕获 设备 


图 29-9 open_pcap 画 数 : 打开 并 初始 化 分 
选择 分 组 捕获 设备 


10-14 ”如果 分 组 捕获 设备 未 曾 指 定 (通过 -i 命令 行 选项 ) ， 那 
就 调用 pcap_lookupdev 函 数 选择 一 人 < 设备 o -该 画 数 发 册 
SIOCGIFCONF ioct1 命 令 选择 索引 号 最 小 的 在 工 〈 即 UP 状态 ) 设 


备 ， 不 过 环 回 接口 除外 。 许 多 pcap 库 函数 在 出 错时 填写 一 个 出 错 消 息 
捉 。 传 递 给 pcap_lookupdev 的 唯一 参数 束 古 一 个 用 于 填写 出 错 消 筷 
串 的 字符 数组 。 


打开 设备 


15-17 调用 pcap_open_1live 打 开 这 个 设备 。 画 数 名 中 
的 “live” 表 明 所 打开 的 是 一 个 真实 的 设备 ， 而 不 是 一 个 含有 先前 保存 之 
分 组 的 “save” 文 件 。 该 函数 的 第 一 个 参数 是 设备 名 ， 第 二 个 参数 是 每 
个 分 组 的 保存 字 节 数 (snaplen， 在 图 29-6 中 被 初始 化 为 200) ， 第 三 
个 参数 是 混杂 标志 ， 第 四 个 参数 是 以 蝇 秒 为 单位 的 超时 值 ， 第 五 个 参 
数 是 指向 某 个 用 于 返回 出 错 消息 串 的 字符 数组 的 指针 。 


800 
如 果 设 置 了 混杂 标志 ， 网 络 接 口 束 被 投入 混杂 模式 ， 导 致 它 接 收 
在 电缆 上 流 经 的 所 有 分 组 。 对 于 tcpdump 这 是 通常 的 模式 。 然 而 对 于 
我 们 的 例子 ， 来 目 DNS 服 务 器 的 应 管 将 被 发 送 天 DNS 查 询 的 发 送 主机 
( 即 运行 本 程序 的 主机 ) ， 因 而 无 需 设 置 混 杂 标 志 。 


超时 参数 指 的 是 读 超 时 。 要 是 每 收 到 一 个 分 组 就 让 设备 把 该 分 组 
返 送 到 应 用 进程 ， 那 会 引起 从 内 核 到 应 用 进程 的 大 量 个 体 分 组 复制 ， 
因而 效率 可 能 比较 低 。1Libpcap 仅 当 设备 的 读 缓冲 区 被 填 满 或 读 超时 
发 生 时 才 返 送 分 组 。 如 果 把 超时 值 设 置 为 0， 那 么 每 个 分 组 一 经 接收 就 
获取 网 络 地 址 与 子 网 掩 码 

18-23 pcap_lookupnet 返 回 分 组 捕获 设备 的 网 络 地 址 和 子 网 
掩 码 。 我 们 接 下 去 调用 pcap_compile 时 必须 指定 这 个 子 网 掩 码 ， 
ee ee Cutis 播 地 


24-30 pcap_compile 把 我 们 在 cmd 字 符 数 组 中 构造 的 过 滤器 
字符 串 编 译 成 一 个 过 滤器 程序 ， 存 放 在 fcode 中 。 这 个 过 滤器 将 选择 


我 们 希望 接收 的 分 组 。 
装载 过 滤器 程序 


31~32 pcap_setfilter 把 我 们 刚 编译 出 来 的 过 滤 需 程序 装载 
到 分 组 捕获 设备 ， 同 时 引发 对 我 们 用 该 过 滤器 选取 的 分 组 的 捕获 。 


确定 数据 链 路 类 型 

33-36 pcap_datalink 返 回 分 组 捕获 设备 的 数据 链 路 类 型 。 
当 接收 分 组 时 我 们 需要 该 值 来 确定 位 于 每 个 所 读 入 分 组 开始 处 的 数据 
链 路 首部 的 大 小 (图 29-15) 。 


调用 open_pcap 之 后 main 函 数 接着 调用 如 图 29-10 所 示 的 
test_udp。 该 函数 发 送 一 个 DNS 查询 ， 并 读 入 服务 器 的 应 答 。 
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wapeksuméedpeksam.c 


12 void 

13 test u piv zid) 

14 { 

15 volatile int nsent - 0, timeout - 3; 

Lë struct uópiphdr tuí; 

1; Signal(SIG^LHM, cig alrm!; 

18 it (cicsctjmojinpbut, 1): | 

19 it (nsen= » i! 

20 err_quit ("n> respcnse"); 

21 princf ("=imeout\n") ; 

22 Lt-mecur *= 2; /* exponential beckof=: 3, 6, 12 */ 
23 ) 

24 canjump = 1; /* siclongjmp is now OK */ 
2s send dns query(); 

26 nsent-s; 

27 Slarm(timecut) ; 

26 ui = ucp read/), 

29 canjump - 2, 

30 alarn(C! ; 

32 if (ui-»ri sum == 4) 

32 princf ("oP checksums offin"); 

33 else 

34 printf ("UDP checksums on\n"); 

35 iz (verbose) 

36 crantt ("receives UDP checksum = tx\n", nsohs(ui->ui_sum) ]; 
37 ] 


udpeksum/udpe sum. 0 


图 29-10 test udpERZK: 发 送 DNS 查询 并 读 取 应 答 


volatile? 


15 我 们 希望 两 个 自动 变量 nsent 和 timeout 在 从 信号 处 理 函 数 
siglongjmp 到 本 函数 之 后 保持 它们 的 值 不 变 。 有 具体 实现 允许 在 
siglongjmp 之 后 把 自动 变量 恢复 成 调用 sigsetjmp 时 刻 的 值 

(APUE 第 178 页 ”) ， 然 而 给 自动 变量 加 上 volatile 限 定 词 就 能 防 
止 它们 被 恢复 成 初始 值 。 


建立 信号 处 理 画 数 和 跳 转 缓冲 区 


17-18 调用 signal1 建 立 SIGALRM 信 和 号 的 处 理 函 数 ， 再 调用 
sigsetjmp 为 siglongjmp 准 备 一 个 跳 转 缓冲 区 。 (APUEBRJ10.15 P 
详细 讲解 了 这 两 个 函数 。) 传递 给 sigsetjmp 的 第 二 个 参数 为 1 是 在 
告知 该 函数 保存 当前 信号 掩 码 ， 因 为 我 们 将 从 信和 号 处 理 函 数 中 调用 
siglongjmp ° 


处 理 siglongjmp 


19-23 这 段 代 码 仅 当 sigLlongjmp 从 我 们 的 信和 号 处 理 函 数 中 调 
用 之 后 才 被 执行 。 如 此 情形 表明 发 生 了 超时 : 我 们 发 送 了 一 个 请 求 ， 
但 是 一 直 没 有 收 到 任何 应 答 。 如 果 我 们 已 发 送 了 3 个 请 求 ， 那 就 终止 进 
程 。 否 则 显示 一 条 消息 并 倍增 超时 值 。 这 就 是 我 们 在 22.5 节 讲解 过 的 
指数 回 进 (exponential backoff) 。 首 次 超时 值 为 3 秒 ， 然 后 依次 是 6 秒 
和 12 秒 。 


802 


我 们 在 本 例子 中 使 用 sigsetjmp 和 siglongjmp， 而 不 是 简单 地 
捕获 EINTR (如 图 14-1) ， 其 原因 在 于 分 组 捕获 函数 库 的 读 函 数 (由 
我 们 的 udp_read 画 数 调用 ) 在 read 操 作 返 回 EINTR 错 误 时 将 重新 启 
动 该 操作 。 既 然 我 们 不 想 为 了 返回 EINTR 错 误 而 修改 这 些 库 函 数 ， 唯 
一 的 解决 办 法 就 是 捕获 SIGALRM 信 和 号 并 执行 一 个 非 本 地 的 长 跳 转 ， 让 
控制 返回 到 我 们 的 代码 ， 而 不 是 信号 函数 执行 完毕 仍然 返回 到 函数 库 


发 送 DNS 查询 并 读 入 应 答 


25-30 send dns queryERZ& (4129-12) 用 于 同一 个 名 字 服 
务 器 发 送 一 个 DNS 查询 ，udp_read 画 数 (图 29-15) 用 于 读 入 应 答 。 
在 读 入 应 答 之 前 我 们 调用 alarm 以 防止 读 操 作 永 久 阻 塞 。 当 所 指定 的 
超时 期 满 时 ， 内 核 将 产生 SIGALRM 信 和 号， 使 我 们 的 信号 处 理 函 数 调 用 
Siglongjmp ° 


检查 收 到 的 UDP 分 组 的 校 验 和 


31-36 ”如 末 所 接收 的 UDP 校 验 和 为 0， 那 么 名 字 服 务 絮 未 曾 计算 
并 发 送 校 验 和 。 


图 29-11 给 出 我 们 的 信号 处 理 程序 sig_alrm， 它 处 理 STGALRM 信 
= o 
udpeksumrudpeksum.c 
1 $include "uõpckaur. a’ 
2 #include <sctjmo.h> 


3 statac caqimpe_ocut impbut; 
4 static int canjurp; 


5 void 
é sig_alrmlirt signo) 


Wi i€ (canjump == 0) 


E) return; 


10 siglongjmpijmpbu£, 1); 


udpcksumudpcksum.c 


图 29-11 sig_alrm 画 数 ， 处 理 SIGALRM 信 号 


8-10 canjump 标 志 是 在 图 29-10 中 跳 转 缓冲 区 被 初始 化 之 后 设 
置 的 ， 并 在 读 入 应 答 之 后 清除 。 我 们 在 该 标志 已 经 设置 的 前 提 下 调用 
siglongjmp， 和 致使 控制 流 变 成 仿佛 图 29-10 中 的 sigsetjmp 返 回 了 
值 1。 


803 


图 29-12 给 出 send_dns_query 画 数 ， 它 构造 了 一 个 DNS 查 询 ， 
并 通过 原始 套 接 字 把 该 UDP 数据 报 发 送 给 名 字 服 务 器 。 


udpcksimysenddnsaueny-raw.c 


6 void 

7 send dnas query (void) 

8 | 

9 siza = nbytcs; 

10 enar "buf, *p-r;j 

1i buf = Malloc(sizeof {struct udpich3r) + 100): 

12 ptr = buf + sizecf(sctruc= udpiphdr); /* leave room for IP/UDP headers */ 
13 *(iuintié t *; ptr) = htonsi!1234]; /* idsntiE:ca-ion */ 

14 pir «= 2; 

15 ^(iuinutiéó t ^j ptr) = htonsiox0100) ; /^ flags: recursion desired */ 
16 ptr «s 2; 

17 *(iuintl6 t *; ptr) = htons!1); /* # questions */ 

18 ptr += 2; 

19 *(iuintló t *! ptr) - 0; /* 4 answer RRs */ 

20 ptr += 2; 

£1 *(iuintl6 t *; ptr) = 0; /* # authority RRs */ 

z2 ptr += 2; 

23 *{{uintlé_t +; ptr) = 0j /* # additional Re */ 

EL! ptr i= 2; 

us mencpy (ptr, "COlaWM0l4root-servsrg|JO03netUOQ", 20); 

46 prr +- 20; 

27 *(iuintl6 t *; ptr) = htons!1): /* query type = A */ 

ZR prr += 2; 

29 á {iuigtté_t ^j ptr) = htonsii): /*^ query class = 1 [IP addr) */ 
30 pr += 2; 

31 noytes = (ptr - tuf) - sizeof(istruct udpiphdr!; 

32 udp write(buf, noytes) ; 

33 if (verbose) 

24 printz(*sent: td bytes of data'n". nbytes! ; 

36 


ucdpcksumsandansauery-row.c 


图 29-12 send dns queryERZK: 向 DNS 服务 器 发 送 一 个 查询 
分 配 缓冲 区 并 初始 化 指针 


11-12 使 用 malloc 分 配 绥 冲 区 buf， 它 足以 存放 20 字 市 的 IP 首 
部 、 8 字 节 的 UDP 首 部 以 及 100 字 节 的 用 户 数据 。 把 指针 ptr 初 始 化 为 
88] Fd PRGA — T 5E B o 


构造 DNS 查询 


13-24 ， 理解 由 本 函数 构造 的 UDP 数据 报 的 细节 需要 了 解 DNS 消 
息 格式 ， 参 见 TCPV1 的 14.3 广 。 这 里 我 们 设置 标识 字段 为 1234， 标 志 
为 0， 问 题 数 为 1， 至 于 资源 记录 (RR) ， 我 们 把 回答 RR 数 、 权 威 RR 
数 和 额外 RR 数 都 设置 为 0 。 


25~30 bd E Pu cc: 查询 主 
Hla. root-servers ,net 的 IP 地 址 。 这 个 域名 存放 在 20 个 字 节 中 ， 
由 4 个 标签 构成 :1 字 节 标签 a、 a servers (注意 


\914 是 一 个 八进制 字符 常数 ) 、3 字 市 标签 net 和 长 度 为 0 的 根 标 签 。 
查询 类 型 为 1 ( 称 为 A 查询 ) ， 查 询 类 别 也 为 1。 
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写 出 UDP 数 据 报 


31-32 ”这 个 消息 由 36 个 字 节 的 用 户 数据 构成 (8 个 2 字 节 字段 和 
单个 20 字 节 域 名 ) ， 不 过 我 们 通过 计算 缓冲 区 内 当前 指针 和 缓冲 区 起 
台 位 置 之 差 得 出 消息 长 度 ， 以 免 每 次 变动 待 发 送 消息 的 格式 就 得 修改 
这 个 常数 (36) 。 最 后 调用 我 们 的 udp_write 函 数 构 造 UDP 和 IP 首 
部 ， 并 把 构造 完毕 的 IP 数 据 报 写 出 到 原始 套 接 字 。 


4129-13284 T open_output zx » 


udpoksem/udpwrite.c 


2 in rawfd; /* raw socket to write on */ 

3 void 

4 open oJtpu- void! 

Si 

6 int o=]; 

了 /* 

8 * Need a raw socket to write our own IP datagrams to. 

5 * Process must have superuser privileges to create this socket. 
16 * Also must set IP HDRINCL so we can write sur own IP headers. 
11 x; 

12 rawfd = Sockst(des--»sa ^»mily, SOCK RAN, 0); 

13 Setsockopt (rawfd, IPPROTO IP, IP HDRINCL, kor., sízeoficn!): 

14 } 


udpeksum/udpwrite.c 


图 29-13 ”open_output 画 数 : 准备 原始 套 接 字 
声明 原始 套 接 字 描述 符 

2 声明 存放 原始 套 接 字 摘 述 符 的 全 局 变量 。 
创建 原始 套 接 字 并 开启 IP_HDRINCL 


7~13 创建 一 个 原始 套 接 字 并 开启 IP_HDRINCL 套 接 字 选项 。 该 
选项 允许 我 们 往 套 接 字 写 出 包括 IP 首 部 在 内 的 完整 I1P 数 据 报 。 


图 29-14 给 出 了 udp_write 函 数 ， 它 构造 IP 和 UDP 首 部 并 把 结果 
数据 报 写 出 到 原始 套 接 字 。 


udpcksum/udpwrite.c 
19 void 
20 udp wri-e(cha- *Luf, int usesler) 


a+ 


2 ' 


22 srra: udpiphdr *ui; 

43 scracz ip *ip: 

ELI /* fill in and checksum UDP header */ 

25 ip = (ctruct ip *] but; 

26 ui = (struct ucpiphdr *) buf; 

2? bzerolui, sizest{*ui)); 

28 /* add 8 to userlen for pseudohesder length */ 

79 uti-sui_ len z htens(iuintig t) (a zecf(s-ruct. udphde) + user ec) ; 
30 /* then add 28 for IP datagram lengrr */ 

ai userlen += sizeof (struct udpiphar) ; 

32 ui-»ui pr - IPWRCCO UDP; 

33 ui-»ui src.s acdr = (;struct sockaddr in *) losal)->oin addr.c zdar; 
34 ui -ui ds-.3 acdr = (istruct sockaddr in *) dest) »3in addr.s3 addr: 
35 ui--uli_sport = [(struct sockaddr_in *! local)--sin porz; 

36 ui-sui_dport = ((struct sockaddr_in *! dest! -+2in_sort; 

37 ui-»ui uler = Li-»ui len; 

38 i£ (zerosum == 6) { 

39 #if 1 /* change tc if 0 for Solaris 2.x, xz & */ 
490 42 ( (ui->ui sum ~ in cksum(iu intie t *) ui, userlen)] -- 3) 
41 ui-»ui Bum = Oxtitt; 

42 $21ase 

43 ui->ui_sum = ui--ui_len; 

44 #endif 

45 ] 

46 /* Till in res. of TP healer; ?/ 

47 /* ip cutpat() calcuabes & stares IP header checksum ^/ 

ag ip-»ip v = LEVERS-ON; 

ay ip-»ip hl = &isecf(sezruc- ip, >> 2j 

50 ip->ip_tos = 0; 

El fit detinec(linux) || defined{_OsenBaD_ } 

52 ip-»ip len = htons(userlen!; /* networ« byte order */ 

£3 #elae 

LE ip-»ip len = user ern; /^ bost byte order */ 

£5 @endif 

56 ip-»ip id = C; /* let IP set this */ 

57 ip-»ip off ~ 0; /* frag otfse-, MF and DF flags */ 
Eg is-sip ttl = TTL OUT; 

59 Sendtelrawfd, buf, userlen, 0, dest, dectlen): 

co . 


udpoksumudpwrite.c 


图 29-14 udp_writeat: 构造 UDP 首部 和 了 PP 首 部 ， 往 原始 套 接 字 写 出 也 数据 报 
初始 化 分 组 首部 指针 


24-26 ip 指向 IP 首 部 (一 个 ip 结构 ) 的 开始 位 置 ，ui 指 向 同一 
位 置 ， 不 过 它 的 udpiphdr 结 构 是 IP 首 部 和 UDP 首部 的 组 合 。 


清 零 首部 


27 ” 显 式 消 零 首部 区 域 ， 以 免 影响 可 能 留 在 绥 冲 区 中 的 剩余 数据 
的 校 验 和 计算 。 
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这 上段 代码 的 早先 版 本 显 式 消 零 struct udpiphdr 的 每 个 成 员 ， 
然而 该 结构 含有 一 些 实现 细节 ， 因 而 不 同系 统 之 间 会 有 老 异 。 EIN 
构造 首部 时 ， 这 是 一 个 典型 的 移植 性 问题 。 
更 新 长 度 


28-31 ui_len 是 UDP 长 度 ， 即 用 户 数 据 字 节 数 加 上 UDP 首 部 
KE (8 字 节 ) 。userlen ( 跟 在 UDP 首部 之 后 的 用 户 数据 字 节 数 ) 
加 上 28 (20 字 节 的 IP 首 部 和 8 字 节 的 UDP 首 部 ) 是 整个 IP 数 据 报 的 大 


填写 UDP 首 部 并 计算 UDP 校 验 和 


32~45 UDP 校 验 和 计算 不 仅 涵 盖 UDP 首 部 和 UDP 数 据 ， 而 且 涉 
及 来 自 IP 首 部 的 若干 字段 。 这 些 来 自 IP 首 部 的 额外 字段 构成 所 谓 的 伪 
首部 (pseudoheader) 。 校 验 和 计算 涵盖 伪 首 部 能 够 提供 如 下 额外 验 
证 : 如 果 校 验 和 正确 ， 那 么 数据 报 确实 已 被 递送 到 正确 的 主机 和 正确 
的 协议 处 理 代码 。 这 些 语句 初始 化 IP 首 部 中 构成 伪 首 部 的 那些 字段 。 
它们 有 些 难 懂 ， 不 过 TCPv2 的 23.6 闻 有 相应 的 解释 。 最 终结 果 是 如 果 
zerosum 标 志 (对 应 -0 命令 行 参数 ) 没有 设置 ， 那 就 在 ui_sum 成 员 
中 存 入 UDP 校 验 和 。 


如 果 计 算出 的 校 验 和 为 0， 那 就 改 为 存 和 人 0xffff。 在 二 进 制 反 码 
算术 (ones-complement arithmetic) 中 这 两 个 值 是 同 义 的 ， 不 过 UDP 通 
过 设置 校 验 和 为 0 值 指 示 发 送 者 没有 存放 UDP 校 验 和 。 注 意 ， 我 们 在 图 
28-14 中 并 没有 检查 计算 出 的 校 验 和 是 否 为 0， 因 为 ICMPv4 校 验 和 是 必 
需 的 :其 值 为 0 并 不 指示 没有 校 验 和 。 


我 们 指出 Solaris 2.x (x«6) 就 通过 设置 了 IP_HDRINCL 套 接 字 选 
项 的 原始 套 接 字 发 送 的 TCP 分 节 或 UDP 数据 报 而 言 ， 在 校 验 和 字段 上 
存在 一 个 缺陷 。 这 些 校 验 和 由 内 核 计算 ， 不 过 进程 必须 把 ui_sum 成 
员 设 置 为 TCP 或 UDP 的 长 度 。 


填写 IP 首 部 


46-59 ”既然 已 经 开启 了 IP_HDRINCL 套 接 字 选 项 ， 我 们 就 必须 

写 IP 首 部 中 的 大 多 数字 段 。 (2838 节 讨论 了 如 何 往 设置 了 该 套 接 字 
UBER EET cg Bt) 我 们 把 标识 字段 (ip. id) 设置 
为 0， 以 告知 IP 模 块 去 设置 这 个 字段 。IP 模 块 还 计算 IP 首 部 校 验 和 。 最 
后 调用 sendto 写 出 IP 数 据 报 。 


注意 ， 对 于 ip_len 成 员 ， PEU Me REDE 
TYRE, RRMA rice ° TE ee AT 
aac 
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下 一 个 函数 是 图 29-15 给 出 udp_read 函 数 ， 它 从 图 29-10 中 调用 。 


ndocksum/uapread.c 


7 struct udpighzr * 
3 udp_read [void) 
> í 


10 int len; 

11 char *pzr; 

12 struct cther_header *cptr; 

13 for 4 { 

14 rtr = next posp(Ller;; 

1$ switch í(dacalink; | 

lé fase DLJI NULL: /* loopback header = 4 bytes */ 
17 rezum {udp check(rtr4+4, len-4;): 

185 case DLT EN1O0MB: 

19 aptr ~ (struct ether header *; pcr; 

20 if /ntchsieptr-sethsr type) !- ETHERTYSE 15) 

21 2rr quir(*Erherret Type tx not TP", ntchsieptr-»ether type)!; 
22 re-urn(udp check(-ztr«14, len-14j); 

25 ase DT STTP， /* SLIP header = 24 bytes 4/ 
24 re-urn(udp check (str+24, len-24!); 

25 case DLT PPP: /* PPP header = 24 bytes */ 
26 rezurmn(udp check (ytr+24, len-24!):; 

7 default: 

26 err_quit (‘unsupported datalink (8d)", datalinki ; 
29 } 

30 } 

31 ) 


ndocksumiudpreag.c 


ANS 


图 29-15 udp readEÉRZi: 从 分 组 捕获 设备 读 入 下 一 个 分 组 


14-29 调用 我 们 的 next_pcap 画 数 (图 29-16) 从 分 组 捕获 设 
备 获取 下 一 个 分 组 。 既 然 数据 链 路 首部 依照 实际 设备 类 型 存在 差异 ， 
于 是 我 们 根据 pcap_datalink 画 数 的 返回 值 作 跳 转 。 


TCPV2 图 31-9 展 示 了 这 里 出 现 的 4、14 和 24 这 几 个 神秘 的 偏 移 量 。 
与 SLIP 和 PPP 对 应 的 24 字 节 偏 移 量 适用 于 BSD/OS 2.1 ° 


尽管 名 字 DLT_EN10MB 中 存在 *10MB” 这 个 限定 词 ， 这 个 数据 链 路 
类 型 也 用 于 100 Mbit/s 以 太 网 。 


我 们 的 udp_check 画 数 (图 29-19) 检查 分 组 并 验证 IP 和 UDP 首 
部 中 的 字段 。 


图 29-16 给 出 next_pcap 画 数 ， 它 返回 来 目 分 组 捕获 设备 的 下 一 


udpcksuavpcap.c 
aR char * 
39 next peap(ince *len) 
40 
4- nar *ptr; 
a2 struct pcap pkthór hdr 
43 /* keeo locping until packe= ready */ 
44 wazle | !pt- = (char *! pcap next (på, &adr)) == NULL! ; 
45 ilen = Ixir.caple::; /* captured length */ 
46 raturn!ptr): 
47 
ndpoksminpeap.c 


129-16 next pcapEXZ: 返回 下 一 个 分 组 


43-44 ， 库 函数 pcap_next 或 者 返回 下 一 个 分 组 ， 或 者 因 发 生 超 
时 而 返回 NULL 。 我 们 在 一 个 循环 中 调用 pcap_next， 直到 返回 一 个 
分 组 〈 或 者 被 SIGALRM 信 和 号 中 断 ) 。 该 函数 的 返回 值 是 指向 所 返回 分 
组 的 一 个 指针 ， 由 它 的 第 二 个 参数 指向 的 pcap_pkthdr 结 构 也 在 返 
回 时 被 填写 : 


struct pcap_pkthdr { 


struct timeval ts; /* timestamp */ 

bpf u int32 caplen; /* length of portion 
captured */ 

bpf u int32 len; /* length of this packet 


(off wire) */ 


, 


其 中 时 间 戳 是 分 组 捕获 设备 读 入 该 分 组 的 时 间 ， 而 不 是 稍 后 该 分 
组 真正 递送 到 进程 的 时 间 。caplen 是 实际 捕获 的 数据 量 (回顾 一 
下 ， 我 们 在 图 29-6 中 把 变量 snaplen 设 置 为 200， 然 后 在 图 29-9 中 把 它 
作为 pcap_open_1live 画 数 的 第 二 个 参数 ) 。 分 组 捕获 机 制 则 在 捕获 
每 个 分 组 的 各 个 首部 ， 而 不 是 捕获 其 中 的 所 有 数据 。len 是 该 分 组 在 
电 绕 上 出 现 的 完整 长 度 。caplen 总 是 小 于 等 于 len。 


45-46 ”分 组 捕获 长 度 通 过 本 函数 的 指针 参数 返回 给 调用 者 ， 本 
玉 数 的 返回 值 则 是 指向 所 捕获 分 组 的 指针 。 切 记 ， 函 数 返 回 值 指针 指 
回 的 是 数据 链 路 首部 ， 对 于 以 太 网 帆 生 14 字 节 的 以 太 网 首部 ， 对 于 环 
回 接口 则 是 4 字 闻 的 伪 链 路 首部 。 


查看 pcap_next 在 函数 库 中 的 实现 ， 可 看 出 不 同 函 数 之 间 的 分 工 
与 协作 ， 如 图 29-17 所 示 。 我 们 的 应 用 程序 调用 各 个 pcap_ 函数 ， 其 中 
有 些 与 设备 无 关 ， 有 些 则 依赖 于 分 组 捕获 设备 的 类 型 。 举 例 来 说 ， 
中 示 出 BPF 实 现 调 用 read，DLPI 实 现 调用 getmsg，Linux 实 现 调用 
recvfrom。 


udp read 


| 应 用 进程 


next_pcap 


pcap_next 


| 设备 无 关 
分 组 捕获 图 数 库 ; 
pcap dispatch libpcap 


read getmsg recvfrom 
(BPF) (DLPI) (Linux) 


图 29-17 MEHRI ER RUE EA OB A A ER CUR] FH 


2129-1824 H cleanup žit, © Hmain KEFE BU ERT 
用 ， 同 时 也 是 用 于 中 断 程序 的 那些 键盘 输入 信号 的 信号 处 理 函 数 。 


adn Usum loin t 


2 void 

3 claanur;in- signo) 

4{ 

ES struct pcan stat scat; 

6 pute('\n', stdcut); 

7 i= (verbose) { 

8 if 'Ecap stats(pd, &s-at) < 0l 

q err quit (poap state: $sVn", poap celerr(pd)); 

10 Srintf ("$d packets received by fi-ter\n", stat.ps recv); 
11 crintf ("td packsts aàrcpzed by kernsl\n", staz.ps_drop) | 
12 } 

13 @xit (0); 

14 


udpeksum/cleanur.c 


图 29-18 cleanup ži 
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获取 并 显示 分 组 捕获 统计 数据 


7-12 使 用 pcap_stats 获 取 分 组 捕获 统计 信息 : Fe are 
的 分 组 总 数 以 及 由 内 核 丢 痉 的 分 组 总 数 。 


图 29-19 给 出 udp_check 函 数 ， 它 验证 IP 和 和 UDP 首部 中 的 多 个 字 
段 。 我 们 必须 执行 这 些 验 证 工作 ， 因 为 由 分 组 捕获 设备 传递 给 我 们 的 
分 组 绕 过 了 IP 层 。 这 一 点 不 同 于 原始 套 接 字 。 


adocksunmaapread.c 


38 sLruct ulpiphdr 4 
29 udp check(chzr ptr, int len! 


40 + 

41 int hlen; 

42 struct ip "ip 

43 struc. udpiphdr ^ui; 

44 if (len < size»fí(struct ip! + Sizeof 'struct udphzr)! 
45 err zuit("len - td", ler); 

36 /* Minimal verification of IP header */ 

47 iz = (ctruct ip *] ptr; 

PET if (ip--ip v !- IPVERSION) 

49 ezr quit("ip v - $d". ip-»ip v); 

EQ hlen - ip-sip Ll << 2; 

51 if (hlen < sizcoE|struct ip); 

a? err quit ("ip hl = $4", ip->ip hl): 

53 it (len < hlen + sizoot!otrzuct udphór!) 

Ba etr uil ("lei = Xl, ler s Kei", Ten, he; 
BS if € (1p-»1p sum = 1» cksumi (i inris t +) ip, hler)) != 0) 
56 e=x_quit ("ip checksum errcr"); 

57 if (ip-»ip p == IPPRCTO UDP) { 

EI ui = (struct udpiphài- *) ip; 

E rcturn(ui); 

E0 į else 

Él err quit("noc a UDP packer”) 

£2 


ndpcksumáudpreas.c 


图 29-19 udp check/Z&: 检验 首部 和 UDP 首部 


44-61 分 组 长 度 必须 至 少 包括 IP 和 UDP 首 部 。IP 版 本 以 及 IP 首 
部 长 度 和 IP 首 部 校 验 和 都 必须 验证 。 如 果 协 议 字 段 表 明 这 是 一 个 UDP 
数据 报 ， 那 就 返回 指向 IP/UDP 组 合 首 部 的 指针 。 否 则 终止 程序 运行 ， 
因为 我 们 在 图 29-9 中 调用 pcap_setfilter 时 指 定 的 分 组 捕获 过 十 滤器 
不 应 该 返回 任何 其 他 类 型 的 分 组 。 


29.7.1 例子 


我 们 百 先 使 用 -0 命令 行 选项 运行 本 程序 ， 以 验证 名 字 服 务 颖 对 于 
不 带 校 验 和 的 到 达 数据 报 也 给 合 出 响应 。 我 们 还 同时 指定 -Vv 命令 行 选 
项 。 


macosx # udpcksum -i eni -0 -v bridget.rudoff.com domain 
device = ent 

localnet = 172.24.37.64, netmask = 255.255.255.224 

cmd = udp and src host 206.168.112.96 and src port 53 
datalink = 1 


sent: 36 bytes of data 
UDP checksums on 
recevied UDP checksum = 9d15 


3 packets received by filter 
© packets dropped by kernel 
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我 们 接着 针对 一 个 未 开启 UDP 校 验 和 的 本 地 名 字 服 务 器 《我们 的 
主机 freebsd4) 运行 本 程序 。 要 注意 的 古 不 开局 UDP 校 验 和 的 名 子 
AR air ERED T ° 


macosx # udpcksum -i eni -v freebsd4.unpbook.com domain 
device - en1 

localnet - 172.24.37.64, netmask - 255.255.255.224 

cmd = udp and src host 172.24.37.94 and src port 53 
datalink - 1 

sent: 36 bytes of data 

UDP checksums off 

recevied UDP checksum = 0 


3 packets received by filter 
© packets dropped by kernel 


29.7.2 libnet iH WA 


我 们 现在 给 出 open_output 和 send_dns_query 这 两 个 函数 用 


1ibnet 取 代 原 始 套 接 字 实 现 的 版 本 。1Libnet 蔡 我们 操心 许多 细节 问 
题 ， 包 括 校 验 和 以 及 IP 首 部 字 节 序 的 可 移植 性 。 图 29-20 给 出 使 用 
libnetü'Sopen outputEÉX ZW » 


udpckstm/sendarsquerr-lihnei.c 


7 static libnet t *1; /^ libet deszripLor */ 


3 void 
9 cpen output (void! 
16 | 


11 char errbaf[LIBNBET ERRZUF 22I2E|; 

l2 /* Initialize libnet with an IPv4 raw socket */ 

15 1 = libnet -nit[LISNET RA&4, NULL, er-buf:; 

14 if (1 -- NLL) , 

15 err quit('Can't in:tialize libnet; $23*, errzbuf!; 
16 ) 

17 ! 


udpcksumsendancguery-lihrei.c 


图 29-20 open output/EZ&. 准备 使 用 Libnet 
声明 1ibnet 描 述 符 


7 libnet 使 用 一 个 不 透明 数据 类 型 (libnet t) 作为 调用 者 
和 画 数 库 的 联接 。1Libnet_init 函 数 返回 一 个 Libnet_t 指 针 ， 调 用 
者 把 它 传递 给 以 后 的 Libnet 画 ; 数 以 指示 所 期 望 的 IIbnet 运 行 实例 o 
从 这 个 意义 上 说 ， 它 类 似 套 接 字 和 pcap 描 述 符 。 


初始 化 libnet 


12-16 通过 将 第 一 个 参数 指定 为 LIBNET_RAW4 调 用 
libnet_init 函 数 请 求 打开 一 个 IPv4 原 始 套 接 字 。 如 果 发 生 错 误 ， 
libnet_init 将 在 它 的 errbuf 参 数 中 返回 出 错 信 息 ， 并 返回 空 指针 。 
这 种 情况 下 我 们 显示 出 错 信息 。 
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图 29-21 给 出 使 用 Libnet 的 send_dns_query 函 数 。 将 它 与 使 用 
原始 套 接 字 的 send_dns_query (图 29-12) 和 udp_write (图 29- 
14) 相 比 较 。 


udpokstmcsendarsquery-libnel.c 


18 void 

19 sand dns query (void) 

20: 

21 cnar qbuf [24], *ptr: 

22 u inti6 t one; 

23 int pa-ket size = LIBNET "D? 4 + LIBNET_ONSV4 H + 24: 

34 tatic libnet ptag t ip stag, ude tag, dne tag; 

25 /* mild query pcrticn of DNS packer */ 

26 ptr = qbuf; 

27 manspyiptr, "\COla\Ol4roct -servers)J03net\000", 20); 

28 ptr t= 20; 

29 ow z hlons(1!; 

30 mencpy (ptr, &ore, 2); /* query type = A */ 

31 tr += 3j 

32 mencpyiptr, Gore, 2); /* query class = 1 (IP addr! ~*/ 

33 /* wild DNS packer */ 

34 dne taq = liknst build dnsv4 (1234 /* identification */, 

35 0x3190 /* flags: recursion desired */, 
36 1 /* Ë questions */, 3 /* 4 answer RRs */, 
a7 0 /* $ authority RS */, 

38 U /* # additional Ras */, 

39 gbuf /* query */. 

40 24 /* length of query */, 1. drs tag!; 
di /* guild UDP header */ 

42 udp tag = liknet build udp(![etruct socxaddr ir *) .ocal!-» 

43 sir port /* source port */, 

44 (struct soekaddr in 4) dest) -> 

as sin port /* dest port */, 

46 packet size /* length */, U /* checksum */, 
47 /* paylosd */, 0 /* payloed lensth */, 
48 1, udp tag); 

49 /* since we specified the checksur as 0, libnet will automatically */ 
50 /* calculate the UDP checkcum. Turn it off iz the ucer doesn't want it.*/ 
51 iE (zerosunm 

£2 i^ (liznet toggle che-ksum!l, udp tag, LIBNET_OFF) < 6) 

S3 err quit ("turning off checksums: ts\r", libnet geterrer(1)); 
E4 /* Suild IP header */ 

55 ip tag ~ libcet -zuild ipv4(packet size + LIBNET IPV4 H /* len */, 

t6 O /* tos */, 0 /* TP ID */, Q /* fragment */, 

Lh TTL -UT /* tcl */, IPERCTO UDP /* protcccl */, 

58 0 /* checksum */, 

59 «(struct sockadd- in *] locali->sin_addr.s addr /* source */, 
£0 ((stract sackadlr in ^j des) -əsin acdr salir /* dest al, 

El NULL /* payload */, 0 /* payload lencth */, 1, ip tag); 

E2 it (libnet write(l) < 0) { 

c3 ezr quit("libnet write. tain". libnet seterrcrí(1l:); 

£4 } 

és if (verbose) 

66 print: ("sent: td bytes of data\n", packet sizel; 

€? . 


udpcksumscndansquery-libriei.c 


图 29-21 使 用 1ibnet 的 send_dns_query 画 数 : 向 DNS 服务 器 发 送 查 询 


构造 DNS 查询 


25-32 构造 DNS 分 组 的 查询 问题 部 分 ， 类 似 图 29-12 第 25~30 
行 。 

34-40 调用 libnet_build_dnsv4 函 数 ， 它 接受 调用 者 将 
DNS 分 组 的 每 个 字段 指定 为 独立 的 函数 参数 。 我 们 只 需要 知道 查询 [R] 
题 部 分 的 布局 ， 如 何 构造 出 DNS 分 组 首部 的 细节 则 不 用 我 们 操心 。 


填写 UDP 首部 并 安排 UDP 校 验 和 计算 


42-48 ”调用 libnet_build_udp 画 数 构 造 UDP 首 部 。 它 同样 
接受 作为 独立 的 函数 参数 指定 每 个 字段 。 当 传 入 的 校 验 和 字段 值 为 0 
时 ，1Libnet 将 自动 计算 校 验 和 存 入 该 字段 。 这 些 类 似 图 29-14 第 29~45 
行 。 

49-52 如 果 用 户 请 求 不 计算 校 验 和 ， 那 么 我 们 必须 显 式 禁止 校 
验 和 计算 。 


填写 IP 首 部 
53-65 调用 Libnet_buil1d_ipv4 画 数 构造 ITPv4 首 部 以 完成 整 
个 分 组 的 构造 。 与 其 他 1ibnet_buil1d 函 数 一 样 ， 我 们 仅仅 提供 字段 


内 容 ， 把 它们 组 装 成 首部 是 1ibnet 之 事 。 这 些 类 似 图 29-14 第 46~58 
行 。 


注意 ，1ibnet 自 动 留意 ip_len 字 段 是 否 为 网 络 字 节 序 。 这 是 通 
过 使 用 1ibnet 令 移植 性 得 以 改善 的 一 个 例子 。 
写 出 UDP 数 据 报 


66-70 调用 1ibnet_write 函 数 把 组 装 成 的 数据 报 写 出 到 网 
络 。 


= 


注意 ，send_dns_query 芳 数 的 1]ibnet 版 本 只 有 67 行 ， 而 原始 
套 接 字 版 本 (send_dns_query 和 udp_write 的 组 合 ) 却 有 96 行 ， 
且 含 有 至 少 2 个 移植 性 小 问题 。 
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29.8 ”小 结 


原始 套 接 字 使 得 我 们 有 能力 读 写 内 核 不 理解 的 IP 数 据 报 ， 数 据 链 
路 层 访问 则 把 这 个 能 力 进一步 扩展 成 读 与 写 任 何 类 型 的 数据 链 路 帧 ， 
Ws "tcpdump 也 许 是 直接 访问 数据 链 路 层 的 最 常用 
程序 。 


不 同 操作 系统 有 不 同 的 数据 链 路 层 访 问 方 法 。 我 们 查看 了 源 目 
Berkeley 的 BPF、SVR4 的 DLPI 和 Linux 的 SOCK_PACKET。 不 过 如 果 使 
用 公开 可 得 的 分 组 捕获 函数 库 1ibpcap， 我 们 就 可 以 忽略 所 有 这 些 区 
别 ， 依 然 编 写 出 可 移植 的 代码 。 


在 不 同系 统 上 编写 原始 数据 报 可 能 各 不 相同 。 公 开 可 得 的 
1ibnet 芳 数 库 隐 藏 了 这 些 靶 异 ， 所 提供 的 输出 接口 既 可 以 通过 原始 
套 接 字 访问 ， 也 可 以 在 数据 链 路 上 直接 访问 。 


习题 
29.1 图 29-11 中 的 canjump 标 志 的 目的 是 什么 ? 


29.2 ”对 于 我 们 的 udpcksum 程 序 ， 和 常见 的 出 错 应 答 是 ICMP 端 口 
不 可 达 (目的 地 没有 在 运行 名 字 服 务 器 ) 或 ICMP 主 机 不 可 达 。 这 两 种 
情况 下 ， 我 们 不 必 等 待 图 29-10 中 的 udp_read 发 生 超时 ， 因 为 这 样 的 
ICMP 错 误 实 质 上 也 是 对 我 们 的 DNS 查询 的 应 答 。 修 改 这 个 程序 以 捕获 
这 些 ICMP 错 误 。 
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30.1 Hy 
当 开 发 一 个 Unix 服 务 器 程序 时 ， 我 们 有 如 下 类 型 的 进程 控制 可 供 
X o 


VE 
。 本 书 第 一 个 服务 器 程序 即 图 1-9 是 一 个 迭代 服务 器 (iterative 
server) 程序 ， 不 过 这 种 类 型 的 适用 情形 极为 有 限 ， 因 为 这 样 的 服 
DE 前 客户 的 服务 之 前 无 法 处 理 已 等 待 服务 的 新 客 


。 图 5-2 是 本 书 第 一 个 并 发 服务 器 (concurrent server) 程序 ， 它 为 每 
个 客户 调用 fork 派 生 一 个 子 进程 。 传 统 上 大 多 数 Unix 服 务 絮 程序 
属于 这 种 类 型 。 

。 在 6.8 廊 ， 我 们 开发 的 男 一 个 版 本 的 TCP 服 务 器 程序 由 使 用 
select 处 理 任意 多 个 客户 的 单个 进程 构成 。 

© 在 图 26-3 中 我 们 的 并 发 服务 絮 程 序 被 改 为 服务 絮 为 每 个 客户 创建 
一 个 线程 ， 以 取代 派生 一 个 进程 。 


我 们 将 在 本 章 探究 并 发 服务 右 程 序 设 计 的 男 两 类 变 体 。 


。 预先 派 生子 进程 (preforking) 是 让 服务 器 在 启动 阶段 调用 fork 
创建 一 个 子 进程 池 。 每 个 客户 请 求 由 当前 可 用 子 进程 池 中 的 某 个 
(闲置 ) 子 进程 处 理 。 
。 预先 创建 线程 (prethreading) 是 让 服务 器 在 启动 阶段 创建 一 个 线 
程 池 ， 每 个 客户 由 当前 可 用 线程 池 中 的 某 个 (| 闲置 ) 线程 处 理 。 


我 们 将 在 本 章 审视 预先 派生 子 进 程 和 预先 创建 线程 这 两 种 类 型 的 
多 细 方 :如果 池 中 进程 和 线程 不 够 多 怎么 办 ? 如 采 池 中 进程 和 线程 
过 多 怎么 办 ? 父 进程 与 子 进程 之 间 以 及 各 个 线程 之 间 怎 样 彼此 同步 ? 


客户 程序 的 编写 通常 比 服务 器 程序 容易 些 ， 因 为 客户 中 进程 控制 
要 少 得 多 。 尽 管 如 此 ， 既 然 我 们 已 在 本 书 中 审查 了 编写 简单 的 回 射 客 
户 程 序 的 各 种 方法 ， 我 们 融 在 30.2 下 给 出 总 结 。 


我 们 将 在 本 章 查 看 9 个 不 同 的 服务 器 程序 设计 范式 ， 并 针对 同一 个 
客户 程序 运行 这 些 服 务 器 程序 以 便 互 相 比 较 。 我 们 的 客户 /服务 絮 交 互 
情形 在 Web 应 用 中 古典 型 的 ， 客 户 向 服务 如 发送 一 个 小 请 求 ， 服 务 右 
响应 以 返回 给 客户 的 数据 。 我 们 已 经 讨论 过 其 中 一 些 服 务 器 程序 CE 
如 为 每 个 客户 fork 一 个 子 进程 的 并 发 服务 器 程序 ) ， 不 过 预先 派生 子 
进程 类 型 和 预先 创建 线程 类 型 是 新 引入 的 ， 我 们 将 在 本 章 详细 讨论 这 
些 类 型 的 服务 规程 序 。 


我 们 将 针对 每 个 服务 器 程序 运行 同一 客户 程序 的 多 个 实例 ， 以 测 
量 服务 某 个 固定 数目 的 客户 请 求 所 需 的 CPU 时 间 。 我 们 把 这 些 CPU 测 
时 结果 汇总 在 图 30-1 中 并 贯穿 本 章 引 用 本 图 ， 而 不 是 把 它们 直接 分 散 
在 本 章 各 处 。 我 们 指出 本 图 中 的 时 间 测 量 的 是 仅仅 用 于 进程 控制 所 需 
的 CPU 时 间 ， 而 送 代 服 务 絮 是 我 们 的 基准 ， 从 其 他 服务 絮 的 实际 CPU 
时 间 中 减 去 迭代 服务 器 的 实际 CPU 时 间 就 得 到 相应 服务 器 用 于 进程 控 
制 所 需 的 CPU 时 间 ， 因 为 迭代 服务 絮 没 有 进程 控制 开销 。 我 们 在 本 图 
中 包含 0.0 这 个 基准 时 间 就 是 为 了 强调 这 一 点 。 本 章 中 我 们 使 用 进程 控 
制 CPU 时 间 (process control CPU time) 来 称谓 某 个 给 定 系 统 与 基准 的 
CPU [i] Z 28 o O 


行 
J WURA E, cuba) 
1 Wha. ATED AI Rok 全 进补 
2 HERETER. EAER accept 
3 MERETHE. bx 1 dit accapt 
4 fJ TERR DIARI Us accept 
5 HUC ERR. ER yf i a 
5 RIS. AEP ACE ROE TRE 18.7 4.7 0.59 
7 MAER, Du HE E Ou P accept 8.6 3.5 1.53 
š MAER, HEREA accept 14.5 5.9 2.05 


Ej3o-1 本 章 所 讨论 各 个 范式 服务 器 的 测 时 结果 比较 
所 有 这 些 服务 邵 测 时 数据 都 通过 在 与 服务 侨 主 机 处 于 同一 子 网 的 


两 个 不 同 的 主机 上 运行 图 30-3 给 出 的 客户 程序 获得 。 对 于 每 个 测试 ， 
这 两 个 客户 都 派生 5 个 子 进程 以 建立 到 服务 絮 的 5 个 同时 存在 的 连接 ， 


因此 服务 器 在 任意 时 刻 最 多 有 10 个 同时 存在 的 连接 。 每 个 客户 跨 每 个 
连接 请 求 服务 器 返回 4000 字 布 的 数据 。 对 于 涉及 预先 派生 子 进程 或 预 
先 创建 线程 这 两 种 类 型 服务 器 的 测试 ， 服 务 器 在 启动 阶段 派生 15 个 子 
进程 或 创建 15 个 线程 。 


818 
有 些 服务 右 程 序 设计 涉及 创建 一 个 子 进程 池 或 一 个 线程 池 。 我 们 
需要 考虑 的 一 个 问题 是 内 置 子 进程 过 多 或 内 置 线程 过 多 会 有 什么 影 


响 。2 图 30-2 汇 总 了 这 些 分 布 数据 ， 我 们 也 将 在 合适 章节 讨论 其 中 每 一 
Ri ° 


BM A A 

puguk | > < 元 上 销 保 | Botik^: TIERE. aoet | ftii TILA. auem | RHET 
或 线程 禾 pd OUT | x8 EREGI C3) if (fr5) aah fg e dm 
asnos | Solis | Dilnix 

" ETT 235 

1 323 337 

2 333 338 

3 328 311 

4 326 245 

s 322 232 

é 324 355 

à 350 322 

8 MI 235 

6 348 337 
10 358 234 
T 331 340 
12 321 217 
13 326 225 
I4 320 335 

| so | soo 


图 30-2 15 个 子 进程 或 线程 中 每 一 个 所 服务 的 客户 数 的 分 布 @ 


30.2 TCP 客户 程序 设计 范式 


我 们 已 经 探究 了 客户 程序 的 各 种 设计 范式 ， 这 里 有 必要 汇总 它们 
各 目的 优 缺 点 。 


。 图 5-5 是 基本 的 TCP 客 户 程序 。 该 程序 存在 两 个 问题 。 首 先 ， 进 程 
在 被 阻塞 以 等 竺 用 户 输 入 期 间 ， 看 不 到 诸如 对 端 关 闭 连 接 等 网 络 
事件 。 其 次 ， 它 以 停 一 等 模式 运作 ， 批 处 理 效率 极 低 。 

。 图 6-9 是 下 一 个 送 代 客户 程序 ， 它 通过 调用 select 使 得 进程 能 够 
于 等 竺 用户 输入 期 间 得 到 网 络 事件 通知 。 然 而 该 程序 存在 不 能 
确 地 处 理 批量 输入 的 问题 。 图 6-13 通 过 使 用 Shutdown 函 数 解决 
了 这 个 问题 。 


e 从 图 16-3 开 始 给 出 的 是 使 用 非 阻塞 式 VO 实 现 的 客户 程序 。 
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。 第 一 个 超越 单 进程 单线 程 设计 范畴 的 客户 程序 是 图 16-10， 它 使 用 
fork 派 生 一 个 子 进程 ， 并 由 父 进程 (或 子 进程 )》 处 理 从 客户 到 服 
务 絮 的 数据 ， 由 子 进程 (或 父 进程 ， 处 理 从 服务 器 到 客户 的 数 


据 。 
。 图 26-2 使 用 两 个 线程 取代 两 个 进程 。 


我 们 在 16.2 节 末尾 汇总 了 这 些 不 同 版 本 之 间 在 测 时 结 末 上 的 差 
o 在 那里 我 们 指出 ， 非 阻塞 式 MO 版 本 尽管 是 最 快 的 ， 其 代码 却 比较 
; 使 用 两 个 进程 或 两 个 线程 的 版 本 相 比 之 下 代码 简化 得 多 ， 而 运 


AR 
速度 只 是 稍 逊 而 已 。 


— 
ale 
4 

J: 


EN 


30.3 ”TCP 测试 用 客户 程序 


图 30-3 给 出 的 客户 程序 用 于 测试 我 们 的 服务 占 程 序 的 各 个 变 体 。 


serveniclient.c 


1 #include "unp.h* 


2 #detanc MAXN 16384 /* max H bytes to requcst trom server */ 
3 int 

4 main(int argc, char **argv] 

5 { 

6 int i, 3, fd, nehii¢ren, nloope. nbvres; 

了 piae padi 

E ecize t n; 

9 char request |MAXLINE], rtply |[MAXN]|: 

106 i" (arge !s 8) 

11 arr quit("usage: client «hostname or IPaddrs ports <#children> " 
12 "<#loops/child> <fbytee/request>") ji 

13 richildrer = atci(argv([3]!; 

l4 nloops - atoííargw[4]): 

15 nbytes = atoi/arav[S]): 

16 enprintf(request, sizeof(requsesc), "$d\n", nbytes); /* newline st end */ 
17 for (i = 0; i < nchildren; i++) | 

1t if | ipid = Fork()) == 2) | /* child */ 

15 for (j = 0; j « nlocps, 3941 | 

20 fd = Tcp cocnect argv 1], argv {2)); 

21 Writeifd, requect, ctrlen(reruest) ) i 

22 if ! in = Readn(fd, reply, nbytes!) !- nhytes) 

23 err quit("seruer returned ta bytss", n); 

24 Clese/fdi; /* TIME WAIT on client, not server */ 
25 

26 printf ("child $2 done\n", i}; 

27 axit (Ul; 

26 ) 

29 /* parenz loops around to fork() again */ 

30 ) 

31 while (wait (NULL! > 0) /* now parent weits for all children */ 
32 H 

33 i= (errno != ECHILD) 

44 err sygí"wait error"); 

35 exit (0); 

36 ] 


servericlienii 


图 30-3 ”用 于 测试 各 个 范式 服务 器 的 TCP 客 户 程序 


10-12 每 次 运行 本 客户 程序 时 ， 我 们 指定 服务 器 的 主机 名 或 IP 
地 址 、 服 务 器 的 端口 、 由 客户 fork 的 子 进程 数 (以 允许 客户 并 发 地 疝 
同一 个 服务 器 发 起 多 个 连接 ) 、 每 个 子 进 程 发 送 给 服务 器 的 请 求 数 ， 
DAREN aK BOR ARS te LIS RUE FT BL 


17-30 ” 父 进程 调用 fork 派 生 指定 个 数 的 子 进程 ， 每 个 子 进程 再 
与 服务 辟建 立 指 定数 目的 连接 。 每 次 建立 连接 之 后 ， 子 进程 就 在 该 连 
接 上 同 服 务 器 发 送 一 行文 本 ， 指 出 需 由 服务 器 返 送 多 少 字 市 的 数据 ， 
然后 在 该 连接 上 读 入 这 个 数量 的 数据 ， 最 后 天 闭 该 连 授 。 父 进程 只 是 
调用 wait 等 等 所 有 子 进程 都 终止 。 需 注意 的 是 ， 这 里 关闭 每 个 TCP 连 
接 的 是 客户 端 ， 因 而 TCP 的 TIME_WAIT 状 态 发 生 在 客户 端 而 不 是 服务 
器 端 。 这 是 与 通常 的 HTTP 连 接 的 差别 之 一 。 


我 们 在 本 章 测试 各 个 版 本 的 服务 器 程序 时 ， 用 于 执行 本 客户 程序 
的 命令 如 下 @， 


% client 206.62.226.36 8888 5 500 4000 


这 将 建立 2500 个 与 服务 器 的 TCP 连 接 : 5 个 子 进程 各 自发 起 500 次 
连接 。 在 每 个 连接 上 ， 客 户 向 服务 器 发 送 5 字 市 数据 ((4000Nn") , 
服务 器 癌 客 户 返 送 4000 字 节 数 据 。 我 们 在 两 个 不 同 的 主机 上 和 针对 同一 
个 服务 器 执行 本 客户 程序 ， 于 是 总 共 提 供 5000 个 TCP 连 接 ， 而 且 任意 
时 刻 服务 器 端 最 多 同时 存在 10 个 连接 。 

已 有 较 完 善 的 基准 测试 程序 (benchmark) 用 于 测试 各 种 Web 服 务 
右 性 能 。WebStone 是 其 中 之 一 ， 可 从 
http:Wwww.mindcraft.com/webstone 获 取 。 然 而 束 为 一 般 性 地 比较 本 章 
探讨 的 各 个 服务 器 程序 设计 范式 ， 我 们 用 不 上 如 此 深奥 的 测试 程序 。 


我 们 接 下 去 逐一 给 出 9 个 不 同 的 服务 右 程 序 设计 范式 。 
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30.4 ”TCP 迭代 服务 器 程序 


迭 代 TCP 服 务 右 总 是 在 完全 处 理 某 个 客户 的 请 求 之 后 才 转 同 下 一 
个 客户 。 这 样 的 服务 絮 程 序 比较 少见 ， 不 过 我 们 在 图 1-9 展 示 了 一 个 例 
子 ， 一 个 简单 的 时 间 获 取 服 务 器 程序 。 


我 们 在 本 章 中 比较 各 个 范式 服务 硕 程 序 时 迭代 服务 郁 程 序 的 用 途 
却 不 可 魔 允 。 如 采 我 们 针对 迭代 服务 做 如 下 执行 用 于 测试 的 客户 程序 
©, 


% client 206.62.226.36 8888 1 5000 4000 


我 们 得 到 同样 数目 的 TCP 连 接 (50005) ， 跨 每 个 连接 传送 的 数 
据 量 也 相同 。 然 而 由 于 服务 句 是 类 代 的 ， 它 没有 执行 任何 进程 控制 。 
这 束 让 我 们 测量 出 服务 器 处 理 如 此 数目 客户 所 需 CPU 时 间 的 一 个 基准 
值 ， 从 其 他 服务 器 的 实测 CPU 时 间 中 减 去 该 值 就 能 得 到 它们 的 进程 控 
制 时 间 。 从 进程 控制 角度 看 迭代 服务 器 是 最 快 的 ， 因 为 它 不 执行 进程 
ee ee Hundes 
1B ^ o 


fiel NA HAGA TUI oS SETTE. AWER DEER P BST 
并 发 服务 器 程序 的 少许 修改 而 已 。 


30.5“TCP 并 发 服务 髓 程序 ， 每 个 客户 一 
个 子 进 程 


传统 上 并 发 服务 器 调用 fork 派 生 一 个 子 进程 来 处 理 每 个 客户 。 这 
使 得 服务 器 能 够 同时 为 多 个 客户 服务 ， 每 个 进程 一 个 客户 。 客 户 数目 
的 唯一 限制 是 操作 系统 对 以 其 名 义 运行 服务 需 的 用 户 ID 能 够 同时 拥有 
多 少子 进程 的 限制 。 图 5-12 殊 是 一 个 并 发 服务 器 程序 的 例子 ， 绝 大 多 
数 TCP 服 务 亏 程序 也 按照 这 个 范式 编写 。 


并 发 服务 器 的 问题 在 于 为 每 个 客户 现场 fork 一 个 子 进程 比较 耗费 
CPU 时 间 。 多 年 前 〈20 世 纪 80 年 代 后 期 ) 当 一 个 繁忙 的 服务 器 每 天 也 
就 处 理 几 百 个 亦 或 几 千 个 客户 时 ， 这 点 CPU 时 间 是 可 以 接受 的 。 然 而 
Web 应 用 的 爆发 式 增长 改变 了 人 们 的 态度 。 繁 忙 的 Web 服 务 器 每 天 测 
得 TCP 连 接 数 以 百 万 计 。 这 还 是 就 单个 主机 而 言 ， 更 繁忙 的 站 点 往往 
if XE. (TCPv3 的 14.2 节 讨论 使 用 称 为 DNS 轮 询 
的 手段 实施 的 一 个 常用 负载 散布 方法 。) 以 后 若干 节 讲 解 各 种 技术 以 
避免 并 发 服务 器 为 每 个 客户 现场 fork 的 做 法 ， 不 过 传统 意义 上 的 并 发 
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图 30-4 给 出 我 们 的 并 发 服务 器 程序 的 main 范 数 。 


server/servil.c 


1 #include "up.h" 

2 im 

3 main(int argc, cnar **àrqv; 

< | 

5 int l:stenfd, connfa;: 

6 pid t childpid; 

7 void $ig _7hld (int), sig inz;inz), web child(int!; 

8 sockler L clilen, addrlen; 

9 struct sockaddr *cliaddr; 

10 ir (arcc -- 2) 

11 listenfd - Tcp listen(UN-L., aroviil. &adärlen) ; 

12 else if (args == 3) 

ls listenfd = Tecb lieten(argv.1], argv[3], saddrlen); 
14 else 

15 err_quit ("usage: serv2l [ «host» ] <port#>"); 

16 cliaddr = wallcc(addrlen!; 

17 Signal (SIGCHLD, cig chid!; 

16 Signal (SIGINT, sig int'; 

19 ford s) { 

20 clilen = addrler: 

21 if | [ocoan£d = sccert(liesenfd, cliaddr, &clilen;) < C] ' 
22 if ‘errno == BINT3) 

23 rt Laue: /* back to for!) */ 

24 size 

25 err_sayal*accept error"); 

26 } 

27 if | [childpid = Fork()) == 0) [ /* child process */ 
28 closaílisten?d;; /* close listening socket */ 
29 web childiconnf3);  /* process request */ 

30 exit (ni; 

31 } 

32 Cisse |connid /* parenz closes connected socket */ 
35 J 

a4 ] 


serveicservild.i 


图 30-4 ”TCP 并 发 服务 器 程序 main 函 数 


本 函数 类 似 图 5-12， 


它 为 每 个 客户 连接 fork 一 个 子 进 程 并 处 理 来 


目 垂 死 的 子 进 程 的 SIGCHLD 信 和 号。 不 过 本 函数 通过 调用 tcp_1isten 


而 变 得 协议 无 关 。 我 们 不 给 


全 出 sig_chld 信 号 处 理 函 数 ， 它 与 图 5-11 


一 样 ， 不 过 去 掉 了 printf 调 用 。 


我 们 还 捕获 由 键入 终端 


山中 断 键 产生 的 SIGINT 信 号 。 在 客户 运行 


2 ost m m 


5 给 出 SIGINT 信 号 处 理 函 数 。 
止 进程 的 例子 。 
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器 程序 运行 所 需 的 CPU 时 间 。 图 30- 
是 一 个 信号 处 理 函 数 不 返回 而 直接 终 


servenservOl.c 


35 vaid 

46 gig int(int Eieanz) 

37 i 

IR void p- cpu ! ime duci tli; 
39 pr opu time(); 

40 exitid); 

ai} 


ver verser vid c 


图 30-5 SIGINT 信 和 号 处 理 函 数 


130-625 tH FASIGINT fa SERN eal A Ap r_cpu_time lx 2y ° 


serverfor_cpu_finte.c 


* dinclixie "ur p.h" 
2 finclude «Sys/rsscurce,.h- 


3 #ifndef HAVE GECRUSAGE PROTO 


4 int getrusags;int, struct rusage *); 

5 $endif 

6 void 

了 pr cpu - ime (void) 

8: 

9 dcuole user, yS; 

10 struct susege mvusage, childusage; 

11 iE (get-zusseqe[RUSAGD SEL?, &myusage) < 2) 

12 err_sys ("getrusage error"); 

13 if (qetrusage (RUSAGE CHILDREN, &childusage) < t; 
14 Crr_sys ("qetrusage crror"); 

15 user = (double) myucage.ru utimz.tv sec i 

16 myussge.ru utime.tv usec/ 1020000.0; 

17 user += (doubles! childusage.ru_utime tv_sec + 
18 childusage.ru_utime.tv_usec/  100000L.0; 
19 sys = (double; myusaac.ru stimc.tv secc i| 

20 myusage.ru_stime.tv_usec/ 1090000.0; 

21 sys += (double) childusage.ru st-re.tv sec + 
22 chíiZusage.ru stime.tv ussc/  100000L.C; 
23 printfi'\nuser tine - $9, sys time - tg\n', user, sys); 
"LG 


server/pr eps Sime.c 


图 30-6 pr cpu timeENZü: 显示 总 CPU 时 间 


getrusage 画 数 被 调用 了 两 次 ， 分 别 返 回调 用 进程 
(RUSAGE SELF) 和 它 的 所 有 已 终止 子 进程 
(RUSAGE_CHILDREN) 的 资源 利用 统计 。 所 显示 的 值 包括 总 的 用 户 
时 间 (耗费 在 执行 用 户 进 程 上 的 CPU 时 间 ) 和 总 的 系统 时 间 (内 核 在 
代表 调用 进程 执行 系统 调用 上 耗费 的 CPU 时 间 ) 。 
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430-4 F main ai Fdjweb. childERZAUA BERE PBK o 
30-7 给 出 了 这 个 函数 © 


server/web child.c 


- #include "urp.h" 
2 #tdefine MAXI 16384 /* max # bytes client can request */ 
3 void 


4 web child(int sockfd) 


6 at ntowrite 
7 ss ze t. nrgad; 
8 char lire[MAXLIINE], result [MAXX]; 


a for tt { 
10 if ( (nread = xeadlins(seockfd, line, MAXL.NE)) == 0) 
1i rcturn; /* comnecticn closed by other end */ 
12 /* linc trom client ocecitico #bytes tc write back */ 
13 ntowrite - acoli!line'; 
14 if ((nrowrite c= 0) || (ntowrite > MAXN)) 
15 err quit("cClient requss- for td bytes", ntowrite) ; 
16 Writen(scckfd, result, rtcwrite!; 
17? | 
18 } 


serverweb child.c 


图 30-7 DARSA Rweb_childmKz 


客户 在 建立 与 服务 器 的 连接 之 后 通过 该 连接 写 出 一 行文 本 ， 指 出 

需 由 服务 器 返 送 多 少 字 节 的 数据 给 客户 。 这 一 点 与 HITP 有 些 类 似 : & 
户 发 送 一 个 小 请 求 ， 服 务 器 响应 以 所 期 望 的 信息 (例如 一 个 HTML 文 
件 或 一 幅 GIF 图 像 ) 。 在 HTTP 应 用 系统 中 ， 服 务 器 通常 在 发 送 回 所 请 
求 的 数据 之 后 就 关闭 连接 ， 不 过 较 新 的 版 本 允许 使 用 持续 连接 

(persistent connection) ， 为 在 某 个 时 限 以 内 到 达 的 额外 客户 请 求 继 续 
保持 TCP 连 接 开放 一 段 时 间 。 在 web_child 画 数 中 ， 服 务 器 介 许 来 自 
客户 的 额外 请 求 ， 不 过 我 们 在 图 30-3 中 看 到 用 于 测试 的 客户 每 次 建立 
连接 只 发 送 一 个 请 求 ， 然 后 就 自己 关闭 该 连接 。 


图 30-1 中 行 1 给 出 了 我 们 的 并 发 服务 避 程 序 的 测 时 结果 。 相 比 后 续 
各 行 ， 我 们 看 到 传统 意义 的 并 发 服务 右 所 需 CPU 时 间 最 多 ， 与 它 为 每 
个 客户 现场 fork 的 做 法 相 吻 合 。 


我 们 在 本 章 中 没有 测量 的 一 个 服务 絮 程 序 设计 范式 是 在 13.5 节 讲 
解 过 的 由 ijnetd 激 活 的 服务 器 。 从 进程 控制 角度 看 ， 由 inetd 激 活 的 


处 理 单 个 客户 的 每 个 服务 器 涉及 一 个 fork 和 一 个 exec， 因 而 所 需 
CPU 时 间 只 会 比 图 30-1 中 行 1 所 示 时 间 更 多 。 


825 


30.6”TCP 预 先 派生 子 进 程 服 务 器 程序 ， 
accept 无 上 锁 保 护 


我 们 的 第 一 个 “增强 ”型 服务 器 程序 使 用 称 为 预先 派生 子 进程 
(preforking) 的 技术 。 使 用 该 技术 的 服务 器 不 像 传统 意义 的 并 发 服务 
磺 那 样 为 每 个 客户 现场 派生 一 个 子 进程 ， 而 是 在 局 动 阶段 预 匈 派生 一 
定数 量 的 子 进 程 ， 当 各 个 客户 连接 到 达 时 ， 这 些 子 进程 立即 就 能 为 它 
们 服务 。 图 30-8 展 示 了 服务 絮 父 进程 预 完 派 生出 N 个 子 进程 且 正 有 2 个 
客户 连接 着 的 情形 。 


图 30-8 ARB ar OCR T ERE 


这 种 技术 的 优点 在 于 无 须 引 入 父 进程 执行 fork 的 开销 就 能 处 理 新 
到 的 客户 。 缺 点 则 是 父 进程 必须 在 服务 吉 局 动 阶段 猜测 需要 预先 派生 
多 少子 进程 。 如 果 某 个 时 刻 客户 数 恰好 等 于 子 进程 总 数 ， 那 么 新 到 的 
客户 将 被 忽略， 直到 至 少 有 一 个 子 进 程 重 新 可 用 。 然 而 回顾 4.5T， 我 
们 知道 这 些 客 户 并 未 被 完全 忽略 。 内 核 将 为 每 个 新 到 的 客户 完成 三 路 
握手 ， 直 到 达到 相应 套 接 字 上 1isten 调 用 的 backlog 数 为 止 ， 然 后 在 
服务 器 调用 accept 时 把 这 些 已 完成 的 连接 传递 给 它 。 这 人 么 一 来 客户 
驶 能 觉察 到 服务 需 在 啊 应 时 间 上 的 恶化 ， 因 为 尽管 它 的 connect 调 用 


即 返 回 ， 但 是 它 的 第 一 个 请 求 可 能 是 在 一 段 时 间 之 后 才 修 服务 


通过 增加 一 些 代码 ， 服 务 器 忌 能 应 对 客户 人 负载 的 变动 。 父 进程 必 
须 做 的 就 是 持续 监视 可 用 〈 即 闲置 ) 子 进程 数 ， 一 旦 该 值 降 到 低 于 某 
个 国 值 整 派生 额外 的 子 进程 。 同 样 ， 一 旦 该 值 超过 男 一 个 病 值 束 终 止 
一 些 过 剩 的 子 进 程 ， 因 为 在 本 章 后 面 我 们 会 发 现 过 多 的 可 用 子 进程 也 
会 导致 性 能 退化 。 


不 过 在 考虑 这 些 增 强 之 前 ， 我 们 首先 查看 这 类 服务 占 程 序 的 基本 
结构 S E 了 我 们 的 预先 派生 子 进程 服务 器 程序 第 一 个 版 本 的 
main£NZy e 
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serverservüz.c 


1 #incluie "ur.p. hi" 


2 scetic irt nchildren: 
3 static pid t *pido; 


4 int 
5 main(int argc, char **arav) 
6 | 
7 iat listenfd, i; 
Li sccklen t. edcrlen; 
9 void siz int (inc); 
10 pid t child maxe(int, int, ins); 
11 if (arqc == i; 
12 dictentd = 7cp listcen(NULL, arqví[1], &zd2rlen): 
13 else if iargc «= 4) 
14 listenfd = "cp listen(argv[1], argv[2:, Saddrlen'; 
15 elsa 
16 err quit ("usage: serut? Doehosb» ) cport H> eHehildrens®): 
17 nchildren - atoi(arqvargc-1.): 
18 pids = Calloe(nenildren, s&izeot(pid tl); 
19 fcr (1 = 0; 1 < nchildren; ìi) 
z0 picsli] = child_make(i, lis-ccnafd, adsricni; /* percnt returns */ 
21 Signal iSIGINT, sig_int!; 
2 for-i 35) 
21 pansel); J* everything Jone hy children «/ 
4 


servenservilZs 


图 30-9 ”预先 派生 子 进程 服务 器 程序 main 函 数 


11-18 增设 一 个 命令 行 参 数 供用 户 指 定 预先 派生 的 子 进程 个 
数 。 分 配 一 个 存放 各 个 子 进 程 ID 的 数组 ， 用 于 在 父 进 程 即 将 终止 时 由 
main 函 数 终止 所 有 和子 进程 。 


19-20 调用 图 30-11 给 出 的 child_make 画 数 创 建 各 个 子 进程 
如 图 30-10 所 示 的 SIGINT 信 和 号 处 理 函 数 不 同 于 图 30-5。 


server/servüz.c 


25 void 
26 gig int(int simo) 


27 4 


int i: 
void pr cpu time(vu-z!; 

/* terminate all children */ 
for li - 0; i < nchildren; irre! 


x-ll(pida[i], SIGTERM); 
while (wait (NULL! > 0) /* wait for all children */ 


i= {erxrms != ECHILD) 


err sysi"wail errors 


pz cpu tims!); 
exit (0); 


-SEE 


图 30-10 SIGINT 信 和 号 处 理 函 数 


30-34 既然 getrusage 汇 报 的 是 已 终止 子 进程 的 资源 利用 统 
计 ， 在 调用 pr _cpu_time 之 前 束 必 须 终止 所 有 子 进程 。 我 们 通过 给 
每 个 子 进程 发 送 SIGTERM 信 和 号 终止 它们 ， 并 通过 调用 wait 汇 集 所 有 


子 进 程 的 资源 利用 统计 。 


程 。 


servericntidl.c 


1 #include "unp.h" 


4p 
a8 
a 
5 
6 


7 
a 
S 

S 


10 ] 


id t 
hi-3 rakc(int i, int Listenfd, int sddrlen) 


pidt  z-d; 
void child main(int, int, int); 
if ( (pid = Fork() > 0) 
return (pid); /* persnt */ 


child main(-, listen?d, acdrlen|; /* never returns */ 


werveccitidiz.: 


图 30-11 child make: 派生 各 个 子 进程 


7-9 调用 fork 派 生子 进程 后 只 有 父 进程 返回 。 子 进程 调用 图 30- 
给 出 的 child_main 画 数 ， 它 是 个 无 限 循环 。 


—serveicinidüz.c 
11 vaid 


12 child main(int z, inc listen?d, int addrlen! 

13; 

14 int cornfd; 

15 void web chitdiin ): 

16 sccklen t cli.sn; 

17 struct sockacdr *cliaddr; 

18 cliaddr = Mal loc(addrlen}; 

19 printfi"*child $1d starting\n", (zong) getpid!)); 


20 fort pa kg 
21 clilen = addrlen; 
xnfd = Accep tlistenfd, clialdr, aclilem); 


23 web chiidiconnfd! ; /* process the request */ 
Close (comed! ; 


swerverfeiildi2.: 


图 30-12 child main: 每 个 子 进程 执行 的 无 限 循 环 


20-25 每 个 子 进 程 调用 accept 返 回 一 个 已 连接 套 接 字 ， 然 后 
调用 web_child (图 30-7) ALERTE] UR, 最 后 关闭 连接 。 子 进程 一 
直 在 这 个 循环 中 反复 ， 直 到 被 父 进程 终止 。 


30.6.1 4.4BSD 上 的 实现 


如 果 你 从 未 见识 过 多 个 进程 在 同一 个 监听 描述 符 上 调用 
accept， 你 可 能 会 想 知 道 这 到 底 是 如 何 工作 的 。 我 们 和 暂且 偏离 一 下 
D T. 企 源 自 Berkeley 的 内 核 中 这 是 如 何 实现 的 〈 也 就 是 TCPv2 中 


进程 在 派生 任何 子 进 程 之 前 创建 监听 套 接 字 ， 而 每 次 调用 fork 
时 ， 守 也 被 复制 。 图 30-13 展 示 了 proc 结 构 (每 个 进程 一 
^) 、 监 听 描 述 符 的 单个 file 结 构 以 及 单个 socket 结 构 之 间 的 关 
系 。 


proc{} 
FEES 


listenfd 


^ liste 
| 
7 d 
a ^A d 
i Es LN 
— M Fidel) u^ 

> 
us | 


socket { } 
= 


图 30-13 proc、file 和 socket 这 三 个 结构 之 间 的 关系 


描述 符 只 是 本 进程 引用 fi1e 结 构 的 proc 结 构 中 一 个 数组 中 某 个 
元 素 的 下 标 而 已 。fork 调 用 执行 期 间 为 子 进程 复制 描述 符 的 特性 之 一 
fe: 子 进程 中 一 个 给 定 描述 符 引 用 的 file 结 构 正 是 父 进程 中 同一 个 描 
述 符 引 用 的 fiLe 结 构 。 每 个 File 结构 都 有 一 个 引用 计数 。 当 打开 一 
个 文件 或 套 接 字 时 ， 内 核 将 为 之 构造 一 个 file 结 构 ， 并 由 作为 打开 操 
作 返 回 值 的 描述 符 引 用 ， 它 的 引用 计数 初 值 自然 为 1， 以 后 每 当 调用 
fork 以 派生 子 进 程 或 对 打开 操作 返回 的 描述 符 (或 其 复制 品 ) 调用 
dup 以 复制 描述 符 时 ， 该 file 结 构 的 引用 计数 就 递增 (每 次 增 1) 
在 我 们 的 N 个 子 进程 的 例子 中 ，file 结 构 的 引用 计数 为 N+1 ( 别 忘 了 
父 进 程 仍然 保持 该 监听 描述 符 打 开 着 ， 不 过 它 从 不 调用 accept) 
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accept 并 因而 均 被 内 核 投 入 睡眠 〈TCPv2 第 458 页 140 行 ) 。 当 第 一 个 
客户 连接 到 达 时 ， 所 有 N 个 子 进程 均 被 唤醒 。 这 是 因为 所 有 N 个 子 进 程 


所 用 的 监听 描述 符 (它们 有 相同 的 值 ) 指向 同一 个 socket 结 构 ， 致 
使 它们 在 同一 个 等 待 通 道 (wait channel) 即 这 个 socket 结 构 的 
so_timeo 成 员 上 进入 睡眠 。 尽 管 所 有 N 个 子 进 程 均 被 唤醒 ， 其 中 只 有 
最 先 运行 的 子 进程 获得 那个 客户 连接 ， 其 余 N-1 个 子 进程 继续 回复 睡 
有 卢 ， 因 为 当 它 们 执行 到 TCPv2 第 458 页 135 行 时 ， 将 发 现 队 列 长 度 为 0 
(因为 最 先 运行 的 连接 早已 取 走 了 本 就 只 有 一 个 的 连接 ) 。 


这 就 是 有 时 候 称 为 惊 群 (thundering herd) 的 问题 ， 因 为 尽管 只 有 
一 个 子 进程 将 获得 连接 ， 所 有 N 个 子 进程 却 都 被 唤醒 了 。 尺 管 如 此 这 
段 代码 依然 起 作用 ， 只 是 每 当 仪 有 一 个 连接 准备 好 被 接受 时 却 唤醒 太 
多 进程 的 做 法 会 寻 致 性 能 受 损 。 我 们 接着 测量 这 个 性 能 影响 。 


30.6.2 ” 子 进 程 过 多 的 影响 


图 30-1 行 2 中 BSD/OS 服 务 器 值 为 1.8 的 CPU 时 间 其 测试 条 件 是 ， 预 
先 派 生 15 个 子 进程 并 且 同 时 存在 最 多 10 个 客户 。 为 了 测量 惊 群 问题 的 
影响 ， 我 们 保持 同时 存在 的 最 大 客户 数 不 变 (10) ， 单 纯 增 长 预先 派 
生 的 子 进程 个 数 。® 因为 单个 测试 结果 没有 什么 意义 ， 所 以 我 们 并 没 
有 给 出 子 进程 个 数 增长 的 结果 。 超 过 10 个 子 进程 就 会 太 多 ， 惊 群 问题 
会 更 严重 ， 计 时 也 会 增加 。 


某 些 Unix 内 核 有 一 个 往往 命名 为 wakeup_one 的 函数 ， 它 只 是 唤 
醒 等 待 某 个 事件 的 多 个 进程 中 的 一 个 ， 而 不 是 唤醒 所 有 等 待 该 事件 的 
进程 [Schimmel 1994] 。BSD/OS 内 核 没有 这 样 的 函数 。 


30.6.3 ”连接 在 子 进程 中 的 分 布 


我 们 接着 查看 全 体 客户 连接 在 阻塞 于 accept 调 用 中 的 可 用 子 进 
程 池 上 的 分 布 。 为 了 采集 这 些 信息 ， 我 们 把 main 函 数 改 为 在 共享 内 存 
区 中 分 配 一 个 长 整数 计数 器 数组 ， 每 个 子 进程 一 个 计数 器 。 所 增加 代 
码 如 下 ， 其 中 meter 函 数 在 图 30-14 中 给 出 。 


servermeter.c 


1 #incluie "unp.h" 
2 finclu2e <sys/mman , a> 
3 /* 


4 * Allocate an array of "nch ildren" lorge in snared memory that can 


5 + be used aa a counter by cach child of how many clients it services. 
6 * See po 2457-670 of "advanced Programming in the nix Ervironme ." 
7 ot 

s long * 

9 meter (int nen:ldren) 

10 | 

11 io få; 

12 leng *ptr; 


13 #ifde= MAP ANCON 


14 ptr = Mmap(0, nenildren *  sizsof/long!, PRIT READ | ERC! WRITE, 
15 MAP ANON | MAP SHARED, -1, Ól; 

16 else 

17 fd = Cpen("/dev/zero", O RIWRE, 0}; 

18 ptr = Mmap(Óó, nehildren * sizeof{lony), PROT REA^ | FROT WRITE, 
19 MAP SHARED, td, C); 

20 Close (fd); 

21 #=ndif 

22 returniptr): 

23 ， 


server imefer a 


图 30-14 ”在 共享 内 存 区 中 分 配 一 个 数组 的 meter 画 数 


*cptr, *meter(int); /* for counting Zclients/child */ 


meter(nchildren); /* before spawning children */ 


在 分 配 共 享 内 存 区 时 ， 如 果 系 统 支 持 (如 4.4BSD) ， 我 们 就 使 用 
匿名 内 存 映射 (anonymous memory mapping) ， 否 则 使 用 /dev/zero 
映射 (如 SVR4) 。 既然 该 数组 是 本 进程 在 尚未 派生 各 个 子 进程 之 前 调 
它 将 由 本 进程 〈 父 进程 ) 和 后 来 fork 的 所 有 子 进程 

ZN 


然后 我 们 把 child_main 函 数 (图 30-12) 改 为 让 每 个 子 进程 在 
accept 返 回 之 后 递增 各 目的 计数 大 ， 把 SIGINT 信 和 号 处 理 函 数 改 为 在 
所 有 子 进 程 终止 之 后 显示 这 个 计数 器 数组 。 


图 30-2 给 出 这 个 分 布 。 当 可 用 子 进程 阻塞 在 accept 调 用 上 时 ， 内 
核 调 度 算 法 把 各 个 连接 均匀 地 散布 到 各 个 子 进 程 。 


30.6.4 select 冲突 


在 观察 4.4BSD 主 机 上 的 本 例子 时 ， 我 们 还 可 以 探究 为 一 个 难以 理 

解 却 又 罕见 的 现象 。 TCPv2 的 16.13 节 提 到 过 select 画 数 的 冲突 

(collision) 现象 以 及 内 核 如 何 处 理 这 个 小 概率 问题 。 当 多 个 进程 在 引 
用 同一 个 套 接 字 的 描述 符 上 调用 select 时 就 会 发 生 冲 突 ， 因 为 在 
socket 结 构 中 为 存放 本 套 接 字 就 绪 之 时 应 该 唤醒 哪些 进程 而 分 配 的 
仅仅 是 一 个 进程 ID 的 空间 。 如 果 有 多 个 进程 在 等 待 同 一 个 套 接 字 ， 那 
么 内 核 必 须 唤 醒 的 是 阻塞 在 select 调 用 中 的 所 有 进程 ， 因 为 它 不 知 
道 哪些 进程 受 刚 变 得 就 绪 的 这 个 套 接 字 影 响 。 


我 们 可 以 迫使 本 服务 器 程序 发 生 select 冲 突 ， 办 法 是 在 图 30-12 
中 调用 accept 之 前 加 上 一 个 select 调 用 ， 等 待 监听 套 接 字 变 为 可 
读 。 各 个 子 进 程 将 阻塞 在 select 调 用 而 不 是 accept 调 用 之 中 。 图 30- 
15 给 出 了 child_main 碎 数 的 改动 部 分 ， 不 同 于 图 30-12 的 若干 行 通过 
标 以 加 号 指出 。 
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printf ("child tld starcing\n", (tlons) gstpiàií)): 


' FD ZBR2[&rcet|; 
foe 723 I: 
' FD SET(lictentd, &rcet]; 
* Select (listenfd+1, S&reet, NULL, NULL, NULL); 
' if(FD ISSET!lictenzc, &reet) == 0) 
crr cuit("1:stontd readable") ; 


clilen = addrloen: 
connfd = Acceptilistenfa, cliaddr, «clilen): 
web chile!connzd;; /* process the requ23- */ 


Closec!connzd!; 


) 


图 30-15 ”把 图 30-12 变 为 阻塞 在 select 而 不 是 accept 中 的 改动 部 分 


如 此 修改 之 后 ， 通 过 检查 BSD/OS 内 核 的 nselcoll 计 数 器 在 服务 
句 运 行 前 后 的 变化 ， 我 们 发 现 某 次 运行 本 服务 器 出 现 1814 个 冲突 ， 下 
一 次 运行 出 现 2045 个 冲突 。 既 然 两 个 客户 为 每 次 运行 本 服务 器 总 共产 
生 5000 个 连接 ， 这 两 个 结果 相当 于 约 有 35%~40% 的 select 调 用 引起 
冲突 。 


QU FR RRA DI ABSD/OSHKR A 4sCPUAT lal, JUEselect vali z 
后 其 值 由 图 30-1 中 的 1.8 增 长 到 2.9。 这 个 增长 的 原因 一 部 分 可 能 是 新 加 
了 一 个 系统 调用 (由 只 是 调用 accept 改 为 调用 select 和 
ee ， 另 一 部 分 可 能 是 内 核 为 处 理 select 冲 突 而 引入 额外 开 


从 以 上 讨论 我 们 可 以 得 出 如 下 经 验 : 如 果 有 多 个 进程 阻塞 在 引用 
同一 个 实体 (例如 套 接 字 或 普通 文件 ， 由 file 结 构 直 接 或 间接 描述 ) 
pn 那么 最 好 直接 阻塞 在 诸如 accept 之 类 的 函数 而 不 是 
select 之 中 。 


30.7 ”TCP 预先 派生 子 进程 服务 器 程序 ， 
accept 使 用 文件 上 锁 保护 


我 们 刚才 讲述 的 4.4BSD 实 现 人 允许 多 个 进程 在 引用 同一 个 监听 套 接 
字 的 描述 符 上 调用 accept， 然 而 这 种 做 法 也 仅仅 适用 于 在 内 核 中 实 
现 accept 的 源 自 Berkeley 的 内 核 。 相 反 ， 作 为 一 个 库 函 数 实现 
accept 的 System V 内 核 可 能 不 允许 这 么 做 。 事 实 上 如 果 我 们 在 基于 
SVR4 的 Solaris 2.5 内 核 上 运行 上 一 节 的 服务 絮 程 序 ， 那 么 客户 开始 连 
接 到 该 服务 器 后 不 久 ， 某 个 子 进程 的 accept 就 会 返回 EPROTO 错 误 
(表示 协议 有 错 ) ° 


造成 本 问题 的 原因 在 于 SVR4 的 流 实现 机 制 (第 31 章 ) 和 库 画 数 版 
本 的 accept 并 非 一 个 原子 操作 这 一 事实 。Solaris 2.6 修 复 了 这 个 问 
题 ， 不 过 大 多 数 其 他 SVR4 实 现 仍然 存在 这 个 问题 。 


解决 办 法 是 让 应 用 进程 在 调用 accept 前 后 安置 某 种 形式 的 锁 
(lock) ， 这 样 任意 时 刻 只 有 一 个 子 进程 阻塞 在 accept 调 用 中 ， 其 他 
子 进程 则 阻塞 在 试图 获取 用 于 保护 accept 的 锁 上 。 
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正如 本 系列 从 书 第 二 卷 所 壕 ， 我 们 有 多 种 方法 可 用 于 提供 包 绕 
accept 调 用 的 上 锁 功 能 。 本 廊 我 们 使 用 以 fcnt1 函 数 呈现 的 POSIX 文 
件 上 锁 功 能 。 

mainkkax (图 30-9) 的 唯一 改动 是 在 派生 子 进程 的 循环 之 前 增加 
一 个 对 我 们 的 my_lock_init 函 数 的 调用 。 


+ my lock init("/tmp/lock.XXXXXX'); /* one lock file for all 
children */ 
for (i = 0; i < nchildren; i++) 


pids[i] = child make(i, listenfd, addrlen); /* parent 
returns */ 


child_make 函 数 仍然 是 图 30-11。child_main 函 数 (图 30- 
12) 的 唯一 改动 是 在 调用 accept 之 前 获取 文件 锁 ， 在 accept 返 回 之 
后 释放 文件 锁 。 


Tor (;; )1 
clilen - addrlen; 
my lock wait(); 
connfd - Accept(listenfd, cliaddr, &clilen); 
my lock release(); 


web. child(connfd); /* process request */ 
Close(connfd); 


图 30-16 给 出 了 使 用 POSIX 文 件 上 锁 功 能 的 my_lock_init 函 数 。 


server/lock fcnti.c 


1 Finclu2e "urp.h" 

2 static struct flock lock :c, unlock it; 

3 static int lcck fd = -1; 

4 /* fcncl() will fail if my lock init() not called */ 
5 void 


6 my lock init(chàr *pathnramc) 


E char lock file/102«4); 

E] /* maet copy caller'e string, in cases it's a conetart */ 
10 atrncpy(lock_file. pathname, s:zeof{lock_fiies!}i 

11 lock ZG = Mkstenpilock file); 

12 Unlink(lock file}; /* but lock fd remains open */ 
13 leek it.1 type = P WALCK; 

14 leck it.] whenze = SZEK_SBT; 

15 leck it 1 start s N; 

16 leek it.1 len = 3; 

17 uniock it.l type = F UNLCK: 

18 unlock it.l whence = SEDX SEPT; 

19 wiak it.l start 2.5; 


29 unlock it.1 ler - 9; 


sevver/dtock. fen.c 


图 30-16 (f&FIPOSIX X (ft EAI REM my_lock_init HRY 
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9-12 WAAR TBE eae Amy_lock_initHh) Ha 
参数 ，mktemp 函 数 根据 该 模板 创建 一 个 唯一 的 路 径 名 。 本 函数 随后 
创建 一 个 具备 该 路 径 名 的 文件 并 立即 unlink 掉 。 通 过 从 文件 系统 目 


杂 中 删除 该 路 径 名 ， 以 后 即使 程序 月 浇 ， 这 个 临时 文件 也 完全 消失 。 

然而 只 要 有 一 个 或 多 个 进程 打开 着 这 个 文件 (也 就 是 说 它 的 引用 计数 
大 于 0) ， 该 文件 本 身 就 不 会 被 删除 。 (这 也 是 从 某 个 目录 中 删除 一 个 
路 径 名 与 关闭 一 个 打开 着 的 文件 的 本 质 差 别 。) 


13-20 初始 化 两 个 flock 结 构 ， 一 个 用 于 上 锁 文件 ， 一 个 用 于 
解锁 文件 。 文 件 上 锁 冰 围 起 自 字 广 偏 移 量 0 (1_whence 值 为 
SEEK_SET，1_start 值 为 0”， 跨 越 整个 文件 (1_1len 值 为 0， 表 示 
锁 住 整个 文件 或 到 文件 尾 ) 。 我 们 并 不 往 该 文件 中 写 任 何 东 西 (其 长 
度 总 为 0”， 不 过 这 是 可 行 的 ， 内 核 照常 正确 地 处 理 这 个 劝告 性 锁 

(advisory lock) 。 


c (Stevens 先 生 ) 在 声明 这 两 个 结构 时 一 开始 使 用 如 下 语句 初 
MEET: 


static struct flock lock_it = = { F_WRLCK, 0, 0, 0, O Y; 


static struct flock unlock. it = { F_UNLCK, 0, 0, 0, O Y; 


然而 这 么 做 存在 两 个 问题 。 首 先 ， 常 值 SEEK_SET 为 0 并 无 保证 。 
更 重要 的 是 ，POSIX 不 保证 flock 结 构 中 各 成 员 的 顺序 。 在 Solaris 和 
Digital Unix 上 1_type 是 第 一 个 成 员 ， 在 BSD/OS 上 它 却 不 是 。POSIX 
只 是 保证 该 结构 中 存在 POSIX 必 需 的 成 员 ， 却 不 保证 它们 的 前 后 顺 
序 ， 更 何况 它 还 允许 该 结构 中 出 现 非 POSIX 的 额外 成 员 。 因 此 除非 把 
它 初始 化 为 全 0， 否 则 总 应 该 以 真正 的 C 代 码 初始 化 一 个 结构 ， 而 不 应 
该 在 分 配 该 结构 时 以 初始 化 算 子 (initilizer) 初始 化 它 。 


这 个 规则 的 例外 是 结构 初始 化 算 子 由 实现 具体 提供 的 情形 。 举 例 
来 说 ， 我 们 在 第 26 章 中 初始 化 Pthread 互 斥 锁 时 所 写 代码 为 : 


pthread_mutex_t mlock = PTHREAD_MUTEX_INITIALIZER; 


其 中 pthread_mutex_t 数 据 类 型 通常 是 一 个 结构 ， 然 而 该 初始 
化 算 子 是 由 实现 提供 的 ， 来 自 不 同 实现 的 该 算 子 可 以 不 一 样 。 


图 30-17 给 出 了 用 于 上 锁 和 解锁 文件 的 两 个 画 数 。 它 们 仅仅 使 用 我 
们 在 图 30-16 中 初始 化 过 的 结构 调用 fcntl1。 


server/Tock fenti.c 


22 void 
23 my lock wait () 


24 ł 
25 


int rc; 
26 while ( (re = fentl(iock fd, s SETLKW, &lock ic)! < 0) ( 
27 it |crrno =-= EBINTR) 
26 continue; 
29 else 
30 err_sysi"fertl error for my lock wait"); 
31 } 
az ] 
3i void 


34 my lcck release!! 


36 if (fentlilock_fd, F SETLXW, unlock it} < 0) 
ere sysi"fcentl error for my lock release") ; 


server/lock. fenti.c 


图 30-17 使 用 fcnt1i 的 my_lock_wait 和 my_lock_redease 函 数 


现在 这 个 新 版 本 的 预先 派生 子 进程 服务 器 程序 在 SVR4 系 统 上 照样 
可 以 工作 ， 因 为 它 保证 每 次 只 有 一 个 子 进程 阻塞 在 accept 调 用 中 。 
对 比 图 30-1 中 Digital Unix 和 BSD/OS 服 务 器 的 行 2 和 行 3， 我 们 看 到 这 种 
围绕 accept 的 上 锁 增 加 了 服务 絮 的 进程 控制 CPU 时 间 。 


Apache Web 服 务 器 程序 版 本 1.1 (http://www.apache.org) 在 预先 派 
生子 进程 之 后 ， 如 果实 现 允 许 所 有 子 进 程 都 阻塞 在 accept 调 用 中 ， 
那 就 使 用 上 一 市 介绍 的 技术 ， 否 则 就 使 用 本 广 介 绍 的 包 绕 accept 的 
文件 上 锁 技 术 。 


30.7.1 ” 子 进 程 过 多 的 影响 


我 们 可 以 查看 本 版 本 的 预先 派生 子 进程 服务 器 程序 是 否 照 常 存在 
上 一 节 中 讲解 的 惊 群 现象 。 图 30 给 出 了 增加 非 必要 子 进程 数 的 结果 。 
在 使 用 文件 上 锁 保护 accept 的 Solaris 一 栏 中 ， 我 们 只 能 测 得 子 进程 数 
在 75 以 内 (75) 的 结果 ， 因 为 测量 下 一 个 步 跳 (90) 引起 CPU 时 间 
odi 。 一 个 可 能 的 原因 是 系统 因 进 程 过 多 而 耗 尽 内 存 ， 导 致 开始 对 


30.7.2 ”连接 在 子 进程 中 的 分 布 
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池上 的 分 布 。 图 30-2 给 出 了 结果 。 所 有 3 个 操作 系统 都 均匀 地 把 文件 锁 
散布 到 等 待 进程 中 。 


30.8 ”TCP 预 先 派生 子 进程 服务 器 程序 ， 
accept 使 用 线程 上 锁 保 护 


我 们 提 过 有 多 种 方法 可 用 于 实现 进程 之 间 的 上 锁 。 上 一 节 使 用 的 
POSIX 文 件 上 锁 方 法 可 移植 到 所 有 POSIX 兼 容 系 统 ， 不 过 它 涉及 文件 
系统 操作 ， 可 能 比较 耗 时 。 本 节 我 们 改 用 线程 上 锁 保 护 accept， 
为 这 种 方法 不 仅 适 用 于 同一 进程 内 各 线程 之 间 的 上 锁 ， 而 且 适 用 于 不 
同 进程 之 间 的 上 锁 。 


为 了 使 用 线程 上 锁 ， 我 们 的 main、child _ make 和 chil1d main 
函数 都 保持 不 变 ， 唯 一 需要 改动 的 是 那 3 个 上 锁 函 数 。 在 不 同 进程 之 间 
使 用 线程 上 锁 要 求 (1) 互 斥 锁 变 量 必须 存放 在 由 所 有 进程 共享 的 内 
(2) 必须 告知 线程 范 数 库 这 是 在 不 同 进程 之 间 共 享 的 互 不 
Ai? 


这 同样 要 求 线程 库 支 持 PTHREAD_RPOCESS_SHARED 属 性 。@ 


835 
正如 本 系列 丛书 第 二 卷 所 述 ， 我 们 有 多 种 方法 可 用 于 在 不 同 进程 
之 间 共 享 内 存 空间 。 在 本 和 的 例子 中 我 们 使 用 nmap 函 数 以 
及 /dev/zero 设 备 ， 它 在 Solaris 和 其 他 SVR4 内 核 上 均 可 运行 。 图 30- 
18 给 出 了 新 版 本 的 my_lock_init 函 数 。 


servececk: pihbreu c 


1 #inelude "urpehread.nh" 

2 Hinclude <cyo/rman, a» 

3 static pthread mutex t  *mpt-; /* actual mutex will be in shared memory */ 
4 word 

$ my .oc« init (char *pathnare! 

E { 

7 iat fd; 

8 pthread mutexattr t mattr; 

S td = Cpen("/cev/acro", O RDWR, Ui; 

10 metr = Mmap(C, sizsoE pthread mutex 七 | PROT READ | zRCT WRITE 
17 MAP SHARD, fri, 0): 

12 Close (fd); 

13 Pthread_mutexattr_init (&mettr); 

14 Prhread mutexattr se-pshared(&mattr, ?THREAD PROCESS SHARED) ; 
15 Pthread matex init(metr, matty); 

16 : 


serverlock pibread.c 


图 30-18 ”在 进程 之 间 使 用 pthread 上 锁 的 my_lock_init 画 数 


9-12 打开 /dev/zero 然 后 调用 mmap。 所 映射 的 字 节 数 是 一 个 
pthread_mutex_t 类 型 变量 的 大 小 。 随 着 关闭 描述 特 ， 这 么 做 是 可 
行 的 ， 因 为 该 描述 符 已 被 内 存 映射 了 。 


13-15 在 先前 的 Pthread 互 斥 锁 例 子 中 ， 我 们 使 用 常 值 
PTHREAD_MUTEX_INITIALIZER 初 始 化 全 局 或 静态 互 斥 锁 变 量 ( 例 
如 图 26-18) 。 然 而 对 于 一 个 存放 在 共享 内 存 区 中 的 互 斥 锁 ， 我 们 必须 
调用 一 些 Pthread 库 函数 以 告知 该 函数 库 : 这 是 一 个 位 于 共享 内 存 区 中 
的 互 斥 锁 ， 将 用 于 不 同 进程 之 间 的 上 锁 。 我 们 首先 为 一 个 互 斥 锁 以 默 
认 属 性 初始 化 一 个 pthread_mutexattr_t 结 构 ， 然 后 赋予 该 结构 
PTHREAD_PROCESS_SHARED 属 性 (该 属性 的 默认 值 为 
PTHREAD_PROCESS_PRIVATE， 即 只 允许 在 单个 进程 内 使 用 ) d 
后 调用 pthread_mutex_init 函 数 以 这 些 属性 初始 化 共享 内 存 区 中 
的 互 不 锁 。 


图 30-19 给 出 了 新 版 本 的 my_lock_wait 和 my_lock_release 
函数 。 每 个 函数 仅仅 调用 一 个 Pthread 画 数 以 上 锁 或 解锁 互 斥 锁 。 


serverflock_pthread.c 


17 void 


16 my lock wait () 

19 | 

26 Pthread watex_lock (mptr) : 
21 

22 void 

23 my lcck release!! 

24 

25 pthread mutex unlock (mpc) ; 
2€ ) 


server/lock pthread.c 


图 30-19 fi FiPthread F-Biffümy lock waitflümy lock release 


比较 图 30-1 中 Solaris 服 务 器 的 行 3 和 行 4， 我 们 看 到 线程 互 不 锁 上 
BRT SCH EB ° 


30.9 ”TCP 预先 派生 子 进程 服务 器 程序 ， 


对 预先 派生 子 进程 服务 器 程序 的 最 后 一 个 修改 版 本 古 只 让 父 进 程 
调用 accept， 然 后 把 所 接受 的 已 连接 套 接 字 “ 传 递 "给 某 个 子 进 程 。 这 
么 做 绕 过 了 为 所 有 子 进程 的 accept 调 用 提供 上 锁 保护 的 可 能 需求 ， 
不 过 需要 从 父 进程 到 子 进程 的 某 种 形式 的 描述 符 传 递 。 这 种 技术 会 使 
代码 多 少 有 点 复杂 ， 因 为 父 进程 必须 跟 踩 子 进程 的 忙 采 状态 ， 以 便 给 
空闲 子 进 程 传递 新 的 套 接 字 。 


在 以 前 的 预先 派生 子 进 程 的 例 于 中 ， 父 进程 无 需 关 心 由 哪个 子 进 
程 接收 一 个 客户 连接 。 操 作 系统 处 理 这 个 细 世 ， 给 予 某 个 子 进 程 以 首 
先 调用 accept 的 机 会 ， 或 者 给 予 某 个 子 进程 以 所 需 的 文件 锁 或 互 斤 
锁 。 图 30-2 的 前 5 栏 同 时 表明 我 们 测量 的 3 个 操作 系统 以 公平 的 轮 循 方 
式 执 行 这 种 选择 。 


然而 对 于 当前 的 预先 派生 子 进 程 例子 ， 我 们 必须 为 每 个 子 进程 维 
eee eer sere 
的 Child 结 构 。 


1 Ly pedes f strucL ( 


2 pid t child pid; /f* process ID */ 

3 int child pipefa; /^* parent's scream pipe to/from child */ 

i int child status: fa € = ready */ 

5 long child count; fs H connect-ons handled */ 

五 Child: 

7 Child ray : Child ] 1 4/ 


图 30-20 ”Child 结 构 


我 们 在 该 结构 中 存放 相应 子 进程 的 进程 ID、 父 进程 中 连接 到 该 子 
进程 的 字 蔬 流 管道 搞 述 符 、 子 进程 状态 以 及 该 子 进程 已 处 理 客户 的 计 
数 。 我 们 的 SIGINT 信 号 处 理 函 数 将 在 终止 程序 前 显示 各 个 子 进程 的 
这 个 计数 右 值 ， 以 便 观察 全 体 客 户 请 求 在 各 个 子 进程 之 间 的 分 布 。 


Jet TE ES A 30-2124 HB child makelERZ& ° fEJE HH fork zz 
前 先 创建 一 个 字 节 流 管道 ， 它 是 一 对 Unix 域 字 节 流 套 接 字 (第 15 
X) 。 派 生出 子 进程 之 后 ， 父 进程 关闭 其 中 一 个 描述 符 
(sockfd[1]) ， 子 进程 关闭 另 一 个 描述 符 (sockfd[0]) 。 子 进 
程 还 把 流 管道 的 自身 拥有 端 (sockfd[1]) 复制 到 标准 错误 输出 ， 这 
样 每 个 子 进程 就 通过 读 写 标准 错误 输出 和 父 进 程 通信 。 父 子 进程 之 间 
的 关系 如 图 30-22 所 示 。 


836 一 
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servec'cintdüs.c 


1 #inclnde "urp.h" 
2 #include "child.h" 
3 pid t 


4 CnilG make(int i, int listerfd, int adcrler; 


6 int sockfd [1] ; 

7 pidt pic: 

5 vcid child main(int int, int); 

9 SceketpairiAP_LOCAL, SOCK_STREAM, 0, cocktd); 

10 if ( (pid = Fork({!}) > D) { 

il Close(sockEd[1]):; 

12 cptrli].zhild pid - pid; 

13 eptrfi] child pipetd = so-kfd[0]; 

14 cptr[i].chi.d otatus » C; 

15 return(pid); /* parent */ 

16 } 

17 Dup2/sockfd[1:, STRBRR_PILENO); /* child's strsam pipe to parent */ 
lé Close (sockfd[0] | ; 

15 Close (sockfd [1]: ; 

20 Close (11scenfd): /* chilà doss not need this cpen */ 
el cn-ld mainli, listenEd, addrlen) ; /* never returns */ 

72 


erveneniidti.c 


图 30-21 fie UC IRE FEARS S8 FEF child_makekx ay 


Tte LİFE 


stderr 


图 30-22 ”父子 进程 各 自 关 闭 一 端 后 的 字 市 流 管道 


所 有 子 进 程 均 派生 之 后 的 进程 关系 如 图 30-23 所 示 。 我 们 关闭 每 个 
于 进程 中 的 监听 友 接 字 ， 因 为 只 有 父 进 程 才 调用 accept。 父 进程 必 
须 处 理 监 听 套 搂 字 以 及 所 有 字 节 流 套 接 字 。 正 如 你 可 能 猜想 的 那样 ， 
父 进程 使 用 select 多 路 选择 它 的 所 有 描述 符 。 


图 30-23 ”所 有 子 进程 都 派生 之 后 的 各 个 字 节 流 管道 


图 30-24 给 出 main 函 数 。 相 比 本 函数 以 前 各 个 版 本 的 变动 在 于 : 
分 配 描述 符 集 ， 打 开 与 监听 套 接 字 以 及 到 各 个 子 进程 的 字 节 流 管道 对 
应 的 位 ， 计 算 最 大 描述 符 值 ， 分 配 Chi1d 结 构 数组 的 内 存 空 间 ， 主 循 
环 由 一 个 select 调 用 驱动 。 


server (ser wc 
1 include *"vnp.h* 
2 dWinlude "hild, hn 


3 static int nechildren: 


4 inc 

5 | em argc, chsr **arqv) 

6 

7 int iistenfd, i, naveil, waxzd. nsel, sonnfd, rc; 

8 void sig int/int]; 

9 pid t child maxe(:rt, int, int); 

10 ssize t n; 

> fa sez reet, masterset; 

12 socklen_t addrlen, clilen; 

13 struc. sockedidr ^clieddr; 

14 i? (argo == 3) 

15 listerfa - Tcp liston (MULL, argv[l1], uaddrlan) ; 

16 else if (argc == 4) 

17 listernf = Tcp lietenr(arqv[1,, arqv.3], &addrler;; 

18 else 

19 e-r quití("usage: serv05 [ «Lost» ] <port#» <#childrens"); 
2n FD FZFEROl&mascerset); 

21 FR_SET (lislenfd, “nasterset): 

Y maxfd - listenfd; 

23 cliaddr = Mallcc(aZdrlen); 

21 nehildren = atci(arav[arzqz - 1]): 

2 navail = nchildren; 

26 cptr = Callocinen:lidren, sizeoi!Childl): 

27 + srefork all the children */ 

28 for ji = 0; i « achildren; i++) 上 

2 child meke(i, listenfd, addrlen); /* parent retorns */ 
30 FD SET(cptr[i].cni:ld pirefd, &masterset!; 

Sk maxfd = maximamfd, cpzr[i].child pipefd); 

ET 

33 Signal (SIGINT, sig_int); 

34 foc (Uy E) 

35 rset = masterset; 

36 i= (maveil z= 2) 

37 FD CLR(liscenfs. surset}; /* turn off if no available children */ 
23 ngel = Select iraxfá + 1, &r&et, NULL, NULL, NULL); 

39 /* check fcr new connections */ 

40 it (FD ISSET(listcrtd, 5rsct;) | 

41 clilen = addrien; 

42 canid = Accept(listerfd. cliaddr, &cliler!; 

43 for (d = 0; i e nchi åren; i++) 

44 if {cptrf{i] child status == C; 

45 Drsak: /* avallable */ 

46 if (i == nchildren) 

47 err quit ("no available children"); 

40 eptrfiil.chilc_stacus = 1; /* mark child as busy */ 
49 eptr [i] .child_counte-; 

50 navail--; 

51 n = Write Fd(cptr(i].-hild pipefd, "", 1, connid!; 


52 Cloee | conned) ; 


53 i= [--nsel == 0) 

Fa cont Laue; /* all Zone with select () results */ 
ES } 

56 /* find any newly-available children */ 

t for (i = 0; i e nchilóren; i++) | 

53 if (FD IsszT(cptr[i].child pipef<. arset)) | 

£9 if ( in = Read(cptr[:] .child_pipefd, &rc, 1)! =-= C] 

£O err quit. ("child &3 terminated imexcectedly", i); 

6 cptr[i].child status = 2; 

62 nmavall++; 

63 if (--nsel == 0) 

få DrAAX /* 411 Gone with select () results */ 
85 ) 

E6 } 

E? 

ER | 


ser vei/servi)s.: 


图 30-24 fe RA fault eA main wey 


840 
如 果 无 可 用 子 进程 则 关 掉 监听 套 接 字 


36-37 计数 各 navail 用 于 跟 踩 当前 可 用 的 和子 进程 数 。 如 采 其 
值 为 0， 那 束 从 select 的 读 描述 符 集中 关 挥 与 监听 套 接 子 对 应 的 位 。 这 
么 做 防止 父 进程 在 无 可 用 子 进 程 的 情况 下 accept 新 连接 。 内 核 仍 然 
将 这 些 外 来 连接 排 入 队列 ， 直 到 达到 1isten 的 backlog 数 为 止 ， 不 过 
我 们 在 没有 得 到 已 准备 好 处理 客户 的 子 进程 之 前 不 想 accept 它 们 。 


accept 新 连接 


39-55 如果 监 听 套 接 字 变 为 可 读 ， 那 就 有 一 个 新 连接 准备 好 
accept。 我 们 找 出 第 一 个 可 用 EWE) 的 子 进程 ， 并 使 用 图 15-13 
中 的 write_fd 函 数 把 就 绪 的 已 连接 套 接 字 传 递 给 该 子 进程 。 我 们 随 
作为 辅助 数据 传递 的 描述 符 写 出 一 个 单字 蔬 的 普通 数据 ， 不 过 接收 进 
程 并 不 查看 该 字 节 的 内 容 。 父 进程 随后 关闭 这 个 已 连接 套 接 字 。 


我 们 总 是 从 Child 结 构 数 组 的 第 一 个 元 素 开始 搜索 可 用 子 进程 。 
这 一 氮 意味 着 该 数组 中 靠 前 排列 的 子 进程 总 是 比 靠 后 排列 的 季 进 程 更 
优先 接收 新 的 连接 。 我 们 将 在 讨论 图 30-2 以 及 查看 服务 句 终 止 后 的 
child_count 计 数值 时 验证 这 个 结论 。 如 果 不 希 望 偏向 于 较 早 的 子 
进程 ， 我 们 可 以 记 住 最 近 一 次 接收 新 连接 的 子 进 程 在 Child 结 构 数 组 


中 的 位 置 ， 下 一 次 搜索 就 从 该 位 置 紧 后 开始 ， 如 果 到 达 数 组 末端 就 环 
绕 回 第 一 个 元 素 。 不 过 这 么 做 没有 什么 优势 (如 果 有 多 个 子 进程 可 
FAA, 那么 由 哪个 子 进程 处 理 一 个 客户 请 求 无 关 紧要 ) ， 除 非 操 作 系 统 
进程 调度 算法 惩罚 ( 即 降低 其 优先 级 ) 总 CPU 时 间 较 长 的 进程 。 如 果 
在 各 个 子 进程 之 间 更 为 均匀 地 分 摊 负 售 ， 那 么 每 个 子 进程 在 各 自 的 总 
CPU 时 间 上 更 趋 于 一 致 。 


处 理 新 近 可 用 的 子 进程 


56-66 我 们 将 看 到 child_main 函 数 在 调用 子 进程 处 理 完 一 个 
客户 之 后 ， 通 过 该 子 进程 的 字 节 流 管 道 拥有 端 向 父 进程 写 回 单个 字 
节 。 这 使 得 该 字 节 流 管道 的 父 进 程 拥有 端 变 为 可 读 。 父 进程 读 入 这 个 
单字 节 (忽略 其 值 )， 把 该 子 进程 标 为 可 用 ， 并 递增 navail 计 数 
器 。 要 是 该 子 进程 意外 终止 ， 它 的 字 节 流 管道 拥有 端 将 被 关闭 ， 因 而 
read 将 返回 0。 父 进程 察觉 到 之 后 就 终止 运行 ， 不 过 更 好 的 做 法 是 登 
记 这 个 错误 ， 并 重新 派生 一 个 子 进程 取代 意外 终止 的 那个 子 进程 。 


30-2525 child mainEÉWZ& e 


- serverehndds,c 
23 void 


24 chniló main(iuL i, int listenfd, int addcler! 

25 | 

26 char Si 

27 int conn£d; 

26 ssizP t 1; 

29 void web childiint) ; 

30 print (*child tld starting\n", (long) getpid(!), 

31 for-( a A 

p if | in = Read fd(SIDZR4 F1LENY, &C, i, &connfd); == U) 
33 err_quit ("read fd returned 0':; 

34 if /connfd < 6) 

35 arr quit ("ns decerisrcr from rea? fd"); 

36 web_childiconnic! ; /* process request */ 

37 Clase ‘oon td): 

36 Writc;STDERP PILENO, "", 1); /* tell parent we're ready agair */ 
39 } 

40 ) 


rveicáildih.: 


K 


130-25 RIFE ERIE T XURIRAS as FEY HJchild mainbk2& 


等 待 来 自 父 进程 的 描述 符 


32-33 ”这 个 函数 不 同 于 前 两 节 中 的 版 本 ， 因 为 这 儿 的 子 进程 不 
再 调用 accept， 而 是 阻塞 在 read_fd 调 用 中 ， 等 待 父 进程 传递 过 来 
个 已 连接 套 接 字 描 述 符 。 


告知 父 进程 已 准备 好 


38 ”完成 客户 处 理 之 后 ， 子 进程 通过 它 的 字 市 流 管道 拥有 端 写 出 
一 个 字 节 ， 告 知 父 进程 本 子 进程 已 可 用 (GUNE) 。 


在 图 30-1 中 ， 比 较 Solaris 服 务 器 的 行 4 和 行 5， 我 们 看 到 本 服务 器 
慢 于 上 一 节 中 在 子 进程 之 间 使 用 线程 上 锁 的 服务 器 。 再 比较 Digtial 
Unix 和 BSD/OS 服 务 屁 的 行 3 和 行 5， 我 们 得 出 类 似 的 结论 : 父 进 程 通 过 
字 节 流 管 道 把 描述 符 传 递 到 各 个 子 进 程 ， 并 有 旦 各 个 子 进程 通过 字 节 流 
管道 写 回 单个 字 节 ， 无 论 是 比 使 用 共享 内 存 区 中 的 互 斥 锁 ， 还 是 与 使 
用 文件 锁 实 施 的 上 锁 和 解锁 相 比 都 更 费时 。 


图 30-2 给 出 Child 结 构 中 child_count 计 数 器 值 的 分 布 ， 它 是 在 
终止 服务 器 时 由 SIGINT 信 号 处 理 函 数 显示 的 。 正 如 我 们 随 图 30-24 所 
作 的 讨论 ， 越 早 派生 从 而 在 Chi1d 结 构 数 组 中 排 位 越 靠 前 的 子 进程 所 
处 理 的 客户 数 越 多 。 


30.10 ITCP 并 发 服务 需 程 序 ， 每 个 客户 一 
个 线程 


最 近 5 站 着 眼 于 每 个 客户 一 个 进程 的 服务 器 ， 或 为 每 个 客户 现场 
fork 一 个 子 进 程 ， AIAI ee FFE ° WIDE BR AS 8 EWL 
支持 线程 ， 我 们 就 可 以 改 用 线程 以 取代 子 进程 。 


图 30-26 给 出 了 我 们 的 第 一 个 创建 线程 的 服务 器 程序 版 本 。 它 十 图 
30-4 的 一 个 修改 版 本 ， 也 就 是 为 每 个 客户 创建 一 个 线程 ， 以 取代 为 每 
个 客户 派生 一 个 子 进程 。 这 个 版 本 非常 类 似 图 26-3。 


- server/servi c 


1 Hiaclude "urptlhiread.l * 

2 int 

3 main(int argc, char **argy) 

4 { 

5 int listenfd, comtd; 

5 veid sic int (inr); 

7 void *d2it;void *!; 

8 pthread t tic 

kl sccklen t. clilen, addrlen; 

10 str sockaddr *cliadár; 

11 iE (arqc == 2; 

12 listenfd = Tcp listen(NULL, argví1], &sdirle2); 
13 elsa if ilary == 3) 

14 listenfd ~ Tcp listen(argv[1], argv[2;, &addrlen!; 
15 else 

16 e-r gzuit("usage: serv06 | «host» | «portW»"); 
17 cliaddr = Maltoc(aXirilern!; 

18 Signal (SIGINT, sig inti; 

19 RL 43 

20 clilen = addrlen: 

21 pvo nfd = Accep (Listenf2, clialdr, &ilenb; 
22 Pthread creace(arid, NULL, «doic, (void *) ccnnfd); 
a3 } 

24 

25 vaid * 

46 doitiveid *arq) 

ay 

28 vcid web chi-d'int); 

22 P hrec] del art tp hread sel PISIS 

30 web child( (int) arg); 

31 Close(lint) ars); 

32 return (NULL); 

33 


- server servi 


图 30-26 ”创建 线程 TCP 服 务 器 程序 的 main 函 数 
主线 程 循环 


19-23 主线 程 大 部 分 时 间 阻 塞 在 一 个 accept 调 用 之 中 ， 每 当 
它 返 回 一 个 客户 连接 时 ， 就 调用 pthread_create 创 建 一 个 新 线程 。 
狐 线 程 执行 的 函数 是 doit， 其 参数 是 所 返回 的 已 连接 套 接 字 。 


每 个 线程 的 函数 
25-33 doit 芳 数 和 完 让 目 己 脱离 ， 使 得 主线 程 不 必 等 每 它 ， 然 后 


WiHiweb clientEZ& (图 30-3) 。 该 函数 返回 后 关闭 已 连接 套 接 
字 [o] 


图 30-1 表 明 这 个 简单 的 创建 线程 版 本 在 Solaris 和 Digital Unix 上 都 
快 于 所 有 预先 派生 子 进 程 的 版 本 。 这 个 为 每 个 客户 现场 创建 一 个 线程 
的 版 本 比 为 每 个 客户 现场 派生 一 个 子 进程 的 版 本 〈 行 1) 快 许多 倍 。 


我 们 曾 在 26.5 节 指出 ， 有 3 个 办 法 可 用 于 将 非 线程 安全 函数 转变 成 
线程 安全 函数 。 我 们 的 web_child 函 数 调用 readline 函 数 ， 而 图 3- 
18 给 出 的 readline 函 数 版 本 是 非 线 程 安全 的 。 我 们 针对 图 30-26 中 
的 例子 运用 26.5 节 中 第 二 和 第 三 个 办 法 并 测 时 ， 结 果 从 第 三 个 办 法 到 
第 二 个 办 法 的 加 速 比 少 于 1%， 也 许 是 因为 readline 仅 仅 用 于 读 入 来 
目 客 户 的 5 字符 计数 值 而 已 的 缘故 。 因 此 为 了 简单 起 见 ， 我 们 给 本 章 中 
e 3-17 给 出 的 效率 稍 低 却 线程 安全 的 版 


841~ 
843 


30.11 ”TCP 预先 创 建 线程 服务 器 程序 ， 
个 线程 各 目 accept 


我 们 已 从 本 章 早先 的 讨论 获悉 预先 派生 一 个 子 进程 池 快 于 为 每 个 
客户 现场 派生 一 个 于 进程 。 在 文 持 线 程 的 系统 上 ， 我 们 有 理由 预期 在 
服务 器 启动 阶段 预先 创建 一 个 线程 池 以 取代 为 每 个 客 尸 现场 创建 一 个 
线程 的 做 法 有 类 似 的 性 能 加 速 。 本 服务 器 的 基本 设计 是 预 完 创建 一 个 
线程 池 ， 并 让 每 个 线程 各 自 调 用 accept。 取 代 让 每 个 线程 都 阻塞 在 
accept 调 用 之 中 的 做 法 ， 我 们 改 用 互 斥 锁 《类似 于 30.8 节 ) 以 保证 任 
何 时 刻 只 有 一 个 线程 在 调用 accept。 这 里 没有 理由 使 用 文件 上 锁 保 
护 各 个 线程 中 的 accept 调 用 ， 因 为 对 于 单个 进程 中 的 多 个 线程 ， 我 
们 总 可 以 使 用 互 斤 锁 达到 同样 目的 。 


图 30-27 给 出 的 pthread07 .h 头 文件 定义 了 用 于 维护 关于 每 个 线 
程 若干 信息 的 Thread 结 构 。 


— servenipihreadd7.h 


L typedef struc ( 
2 pthreac t thread tid; /* thread I> */ 
3 lona thread count; /^* # connections handled */ 


) Threas 
5 Threac ttr; /* array st Thread structures; calloc'ed */ 
6 int listenfd, nthreads; 
7 socklen t ackir len 


3 pthread | mutsx_t miock, 
serveriptimeadü7.l 


图 30-27 pthread97.h 头 文件 


我 们 还 声明 了 一 HEHE 量 ， 璧 如 监听 套 接 字 摘 述 符 和 一 个 需 由 
所 有 线程 共 译 的 互 不 锁 变 量 等 。 


图 30-28 给 出 了 main 函 数 。 


[e 
下 


server/servi7.c 
1 #invlude * unptliresd. ni" 
2 finzlude *othreado7 . h^" 


3 pthread mutex t mlock - PTHREAC MUTEX INITIALIZER; 


4 int 

5 ma:r'int arge, char **argv! 

6 { 

7 int i; 

8 void sig int(int)], thread make (int) i 

9 if (argc == 3} 

10 Tis eaf = Top) islet Nd, argu [1], der); 
1l else if (argc == 4) 
12 listenfd = Tcp lisezen!arqv[1], argv[3], &addrleni,; 

13 else 

14 err gl ("usages serv? [ chost> ] epari#> cHtiireads>"!,; 
i5 nthreads ~ atci(arcv[argc - 1]!; 

i6 tprr = Callce(nthreade, sizeof (Thread) ) ; 
17 for (i = 0; i < nthresds; i++} 
18 thread maker); /* only main zhreaz returns */ 
19 SiqnzLl(SICINT, 5iq int); 
20 fav (rh 
21 pause!) ; /* everything done by threads */ 
22 ] 


serveazservid?. c 


图 30-28 ”预先 创建 线程 TCP 服 务 器 程序 的 main 函 数 


图 30-29 给 出 了 画 数 thread_make 和 thread main ° 


server'ptiread 7c 


1 #include *'urpthread.h" 

2 #include "pchread27.h" 

5 void 

4 thread make;in-z i) 

51 

6 void *threac_rain(void *), 

7 Prhread create(&tptr[il.zhzead tid, NULL, &th-saà main, (void +*+) il; 
& return); /* main thread returns */ 
2] 

10 void * 

li thxead mzir(void *arq) 

42 1 

13 int cornfd; 

14 void web childiint); 

15 oceklen_t clilen; 

16 struct sockacdr *cliaddr; 

17 cliaddr = Malloc(a3drlen!; 

18 printE! "thread 34 starting\n", (int) arg); 

19 for | ) { 

70 clilen = addrien;: 

ai Pthreac rutex lock(&mlock); 

£2 comnfd = Accept llistenfa, cliaddr, aclilen); 
23 Ptkreac mutex unlock (Smloz-k} ; 

24 tpcr[(ínt) arg) .chreac_count++; 

25 web_child!connfd! ; /* process request */ 
26 Close (-onnfd! ; 

a? 

<8 | 


servev/ptimecd7.c 
[30-29 thread makejflthread mainEZk 
创建 线程 


7 创建 线程 并 使 之 执行 thread_main 函 数 ， 该 函数 的 唯一 参数 
是 本 线程 在 Thread 结 构 数 组 中 的 下 标 。 


21-23 thread_main 函 数 在 调用 accept 前 后 调用 
pthread_mutex_lock 和 pthread_mutex_unlock 加 以 保护 。 


845 
比较 图 30-1 中 Solaris 和 Digital Unix 服 务 器 的 行 6 和 行 7， 我 们 看 到 


当前 的 服务 器 版 本 快 于 为 每 个 客户 现场 创建 一 个 线程 的 版 本 。 我 们 预 
期 如 此 ， 毕 葛 我 们 只 是 在 服务 器 局 动 阶段 一 次 性 地 创建 线程 池 ， 而 不 


征 每 来 一 个 客户 现场 创建 一 个 线程 。 事 实 上 在 这 两 个 主机 上 当前 版 本 
的 服务 句 是 所 有 版 本 之 中 最 快 的 。 


图 30-2 给 出 了 Thread 结 构 中 thread_count 计 数 器 值 的 分 布 ， 
它们 由 SIGINT 信 和 号 处 理 函 数 在 服务 器 终止 前 显示 输出 。 这 个 分 布 的 
均衡 性 是 由 线程 调度 算法 带 来 的 ， 该 算法 在 选择 由 哪个 线程 接收 互 斥 
锁 上 表现 为 按 顺序 轮 循 所 有 线程 。 


在 诸如 Digital Unix 等 源 自 Berkeley 的 内 核 上 ， 我 们 不 必 为 调用 
accept 而 上 锁 ， 因 而 可 以 把 图 30-29 改 为 没有 互 斥 锁 上 锁 和 解锁 的 版 
本 。 然 而 这 么 做 导致 进程 控制 CPU 时 间 由 图 30-1 中 行 7 的 3.5 秒 钟 增长 到 
3.9 秒 钟 。 如 果 继 续 查 看 CPU 时 间 的 两 个 构成 部 分 (用 户 时 间 和 系统 时 
[RD ， 我 们 发 现 没 有 上 锁 的 用 户 时 间 有 所 减少 (因为 上 锁 是 由 在 用 户 
空间 中 执行 的 线程 画 数 库 完 成 的 ) ， 系 统 时 间 却 增长 较 多 (因为 当 一 
个 连接 到 达 时 所 有 阻塞 在 accept 之 中 的 线程 都 被 唤醒 ， 引 发 内 核 的 惊 
群 问题 ) 。 由 于 把 每 个 连接 派 遗 到 线程 池 中 某 个 线程 需要 某 种 形式 的 
eee EL £383 22 FER SEPT UK 
遗 来 得 快 。 


30.12 ITCP 预 先 创 建 线程 服务 器 程序 ， 主 
线程 统一 accept 


最 后 一 个 使 用 线程 的 服务 器 程序 设计 范式 是 在 程序 局 动 阶段 创建 
一 个 线程 池 之 后 只 让 主线 程 调用 accept 并 把 每 个 客户 连接 传递 给 池 
中 某 个 可 用 线程 。 这 一 点 类 似 于 30.9 玫 的 描述 符 传 递 版 本 。 


本 设计 范式 的 问题 在 于 主线 程 如 何 把 一 个 已 连接 套 接 字 传递 给 线 
程 池 中 某 个 可 用 线程 。 这 里 有 多 个 实现 手段 。 我 们 原本 可 以 如 前 使 用 
描述 符 传递 ， 不 过 既然 所 有 线程 和 所 有 描述 符 都 在 同一 个 进程 之 内 ， 
我 们 没有 必要 把 一 个 描述 符 从 一 个 线程 传递 到 另 一 个 线程 。 接 收 线程 
只 需 知 道 这 个 已 连接 套 接 字 描 述 符 的 值 ， 而 描述 符 传递 实际 传递 的 并 
非 这 个 值 ， 而 是 对 这 个 套 接 字 的 一 个 引用 ， 因 而 将 返回 一 个 不 同 于 原 
值 的 描述 符 (该 套 接 字 的 引用 计数 也 被 递增 ) 。 图 30-30 给 出 的 
pthread08 .h 头 文件 定义 了 一 个 与 图 30-27 等 同 的 Thread 结 构 。 


- serveciptimeadus, h 


1 typedef ML rut ( 
2 pthread t thread tid; /* thread ID */ 


3 long thread count: /* H connections hand ed */ 
4 } Thread: 
$ Thread *t»tr; /* array of Thread structures; calloc'ej 4/ 


5 define MAXNCLI 32 

7 int cLifd[MAXNCLI]. iget, izu-; 

3 pthread mutex t clifd mutex; 

3 pthread ccnd t clifd conz: 

serveripihrendüs. l 


130-30 pthread68 .h 头 文件 


846 
定义 存放 已 连接 套 接 字 描述 符 的 共享 数组 

6-9 ”我 们 还 定义 一 个 clifd 数 组 ， 由 主线 程 往 中 存 入 已 接受 的 
己 连 接 套 接 字 描述 符 ， 并 由 线程 池 中 的 可 用 线程 从 中 取出 一 个 以 服务 


相应 的 客户 。iput 是 主线 程 将 往 该 数组 中 存 入 的 下 一 个 元 素 的 下 标 ， 
iget 是 线程 池 中 某 个 线程 将 从 该 数组 中 取出 的 下 一 个 元 素 的 下 标 。 这 


个 由 所 有 线程 共 圣 的 数据 结构 目 然 必须 得 到 保护 ， 我 们 使 用 互 不 锁 和 
条 件 变 量 做 到 这 一 点 。 


[30-3126 E Smaink ZA e 


server'servüS.c 
1 #include "urpLlread.l* 
#incluse "pchreados.h* 


Ww 


3 static int nthreads; 
chreag vutex t clifd_mutex = PTIRDLAD MUTEM INITIALIZDR; 
5 p-hzeaa cond t clit^d cond = PTHSEAD COND 7N-^TIALIZER; 


6 inr 

7 main(int args, char **argyv) 

8 | 

9 int i. listenfd, comnfd; 

10 veid sig inl lint), Lhrea make (int ) 

11 sceklen t ederien, clilen; 

12 8zruc- sockaddr *cliaddr; 

13 if (argc == 3! 

14 listenfd = Top_listen(MULL, aryy(1], &eddrlen); 
is eles if targe -- 4) 

16 dictentd = Tep_listen{arqy[1), arav[z., Saddricn); 
17 else 

18 Prr_quit ("usage: serviag | «host» | eportH» <#threads>") ; 
19 clíaddr = Malioc(ackirlen) ; 

20 nthreade = atoi (argv large - 1J); 

z1 tptr = Calloc(rthreads, sizeof(Thread!); 

22 iget = iput = C: 

23 /* creata all the threats v/ 

24 tor (i = 0; i < athreads; iri) 

25 thresd nake:i); /* only main thread returns */ 
26 Siyal (SIGINT, sig iül!; 

27 fcr ( 33 } ( 

zu Ccli.sn = addrlen; 

29 cornfd = Acceptilistenfa, cliaddr, &clilenl; 

30 Ptlrsad wuzex lock[&clifd nutex!; 

31 clif3[iput] = connfa: 

32 i= (++iput == MAXNCLI) 

33 iput = 0; 

34 i: fipat == iget! 

35 err gquir("iput = iget s ta", ipur); 

46 Pthread cond signal(&c_ifd cond!; 

37 Pthread_wutex_unlock (ScliEd_matex) ; 

38 } 

39 


serverserie 


图 30-31 MEERES sSTEH HJmainENZK 
创建 线程 池 
23-25 使 用 thread_make 创 建 池 中 每 个 线程 。 


等 待 客户 连接 


27-38 主线 程 大 部 分 时 间 阻 塞 在 accept 调 用 中 ， 等 行 各 个 客 
尸 连接 的 到 达 。 一 旦 某 个 客户 连接 到 达 ， 主 线程 束 把 它 的 已 连接 套 接 
字 摘 述 符 存 入 clifd 数 组 的 下 一 个 元 素 ， 不 过 需 事先 获取 保护 该 数组 
的 互 斥 锁 。 主 线程 还 检查 iput 下 标 没有 赶 上 iget 下 标 AREEN 
明 该 数组 不 够 大 ) ， 并 发 送信 号 到 条 件 变量 信号 ， 然 后 释放 互 不 锁 ， 
以 允许 线程 池 中 某 个 线程 为 这 个 客户 服务 。 


30-3228H1 T thread. makeZlthread main 函数 。 前 考 与 
30-29 中 的 版 本 相同 。 


serveviptimeaduN, c 


1 #include “unpthread. kh" 

2 tineclnse "p-hreacdó& .hn" 

3 void 

4 thread makse;in- i) 

8.1 

6 void ^thread mair(void +); 


pthreaóG create (&tptr[i’ .thread cid, NULL, &thread main, (void *) i]; 
8 return; /* main thread returns */ 


1 
3 | 


10 void * 
1i thread mazn'void targ) 


lz 

12 int connfd; 

14 void weh childiirt); 

15 print?(*'thread td startinc'r", (int! arg): 

1€ fog 4 Fox A 

17 Fthread mutex lock;S&clifd mutex!; 

18 while (iget == iput) 

19 Pthread cona wait(uclifad cond, uciifd mutex): 
20 conntd ~ clifd[iact]: /* cornected socket to service */ 
21 if ‘+riget == MAXNCL=} 

22 iget = 0: 

23 Ethread mutex unlock [kclifd mutex) ; 

24 tptrl;in-) arg! .throad_count++; 

25 wen childiconn?Z!; /* process request */ 
26 C^ ose fennnd? 3 

27 } 

26 ] 


server priamecdos, c 
图 30-32 thread makeflüthread main/NZV 


等 待 为 之 服务 的 客户 描述 符 


17-26 线程 池 中 每 个 线程 都 试图 获取 保护 c1ifd 数 组 的 互 斥 
锁 。 获 得 之 后 就 测试 iput 与 iget， 若 两 者 相等 则 无 事 可 做 ， 于 是 通 
过 调用 pthread_cond_wait 睡 眼 在 条 件 变量 上 。 主 线程 接受 一 个 连 
接 后 将 调用 pthread_cond_signal 向 条 件 变 量 发 送信 号 ， 以 唤醒 睡 
眠 在 其 上 的 线程 。 若 测 得 iput 与 iget 不 等 ， 则 从 clifd 数 组 中 取出 
下 一 个 元 素 以 获得 一 个 连接 ， 然 后 调用 web_child。 


图 30-1 中 的 测 时 数据 表明 这 个 版 本 的 服务 器 慢 于 上 一 市 中 先 获 取 
一 个 互 斤 锁 再 调用 accept 的 版 本 。 原 因 在 于 本 世 的 例子 同时 需要 互 
不 锁 和 条 件 变 量 ， 而 图 30-29 中 只 需要 互 不 锁 。 


如 果 检 查 线程 池 中 各 个 线程 所 服务 客户 数 的 分 布 直方 图 ， 我 们 发 
现 它 类 似 图 30-2 的 最 后 一 栏 。 这 一 点 意味 着 当主 线程 调用 
pthread_cond_signal13 引 起 线程 函数 库 基 于 条 件 变 量 执行 唤醒 工作 
时 ， 该 函数 库 在 所 有 可 用 线程 中 轮 循 唤醒 其 中 一 个 。 


30.13 小结 

我 们 在 本 章 中 讨论 了 9 个 不 同 的 服务 器 程序 设计 范式 ， 并 针对 同一 
个 Web 风 格 的 客户 程序 分 别 运 行 了 它们 ， 以 比较 它们 花 在 执行 进程 控 
制 上 的 CPU 时 间 : 

(1) XRURésss 〈 无 进程 控制 ， 用 作 测 量 基准 ) ; 

(2) 并 发 服务 器 ， 每 个 客户 请 求 fork 一 个 子 进程 ; 

(3) 预先 派生 子 进 程 ， 每 个 子 进程 无 保护 地 调用 accept: 

(4) 预先 派生 子 进 程 ， 使 用 文件 上 锁 保 护 accept; 

(5) 预先 派生 子 进 程 ， 使 用 线程 互 斥 锁 上 锁 保 护 accept; 

(6) 预先 派生 子 进 程 ， 父 进程 回 子 进程 传递 套 接 字 描 述 符 ; 

(7) 并 发 服务 器 ， 每 个 客户 请 求 创建 一 个 线程 ; 

(8) 预先 创建 线程 服务 右 ， 使 用 互 斥 锁 上 锁 保 护 accept; 

(9) 预先 创建 线程 服务 右 ， 由 主线 程 调用 accept 。 
849 
经 过 比较 ， 我 们 可 以 得 出 以 下 几 点 总 结 性 意见 。 
当 系 统 负载 较 轻 时 ， 每 来 一 个 客户 请 求 现场 派生 一 个 子 进程 为 之 
服务 的 传统 并 发 服务 器 程序 模型 就 足够 了 。 这 个 模型 甚至 可 以 与 
inetd 结 合 使 用 ， 也 就 是 inetd 处 理 每 个 连接 的 接受 。 我 们 的 其 
他 意见 是 就 重负 傈 运行 的 服务 器 而 言 的 ， 壁 如 Web 服 务 器 。 
相 比 传统 的 每 个 客户 fork 一 次 设计 范式 ， 预 先 创建 一 个 子 进程 江 


或 一 个 线程 池 的 设计 范式 能 够 把 进程 控制 CPU 时 间 降 低 10 倍 或 以 
上 。 编 写 这 些 范 式 的 程序 并 不 复 江 ， 不 过 需 超越 本 草 所 给 例子 的 


A: 监视 内 置 子 进程 个 数 ， 随 着 所 服务 客户 数 的 动态 变化 而 增加 
或 减少 这 个 数目 。 

某 些 实现 允许 多 个 子 进程 或 线程 阻塞 在 同一 个 accept 调 用 中 ， 
男 一 些 实现 却 要 求 包 绕 accept 调 用 安置 菜 种 类 型 的 锁 加 以 保 

护 。 文 件 上 锁 或 Pthread 互 不 锁 上 锁 都 可 以 使 用 。 

让 所 有 子 进程 或 线程 自行 调用 accept 通 常 比 让 父 进 程 或 主线 程 
独 目 调用 accept 并 把 描述 符 传 递 给 子 进 程 或 线程 来 得 简单 而 快 


速 。 
由 于 潜在 select 冲 突 的 原因 ， 让 所 有 子 进程 或 线程 阻塞 在 同一 
个 accept 调 用 中 比 让 它们 阻塞 在 同一 个 select 调 用 中 更 可 取 。 
使 用 线程 通常 远 快 于 使 用 进程 。 不 过 选择 每 个 客户 一 个 子 进程 还 
是 每 个 客户 一 个 线程 取决 于 操作 系统 提供 什么 支持 ， 还 可 能 取决 
于 为 服务 每 个 客户 需 激 活 其 他 什么 程序 ( 若 有 其 他 程序 需 激 活 的 
话 ) 。 举 例 来 说 ， 如 果 accept 客 户 连 接 的 服务 器 调用 fork 和 
exec ( 壁 如 说 ijnetd 超 级 守护 进程 ，， 那 么 fork 一 个 单线 程 的 
进程 可 能 快 于 fork 一 个 多 线程 的 进程 。 


习题 


30.1 在 图 30-13 中 为 什么 父 进程 在 派生 所 有 子 进 程 之 后 仍然 保持 
监听 套 接 字 打开 着 而 不 关闭 它 呢 ? 


30.2 ”你 能 够 把 30.9 节 的 服务 器 程序 重新 编写 成 改 用 Unix 域 数据 报 
套 接 字 取 代 Unix 域 字 节 流 套 接 字 吗 ? 需要 做 哪些 改动 ? 


30.3 ”运行 测试 用 客户 程序 ， 并 按照 你 的 系统 环境 文 持 尽 可 能 多 
地 运行 各 个 服务 器 程序 ， 对 比 你 的 结 采 和 本 章 所 报告 的 结 末 。 
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@ 本 书 第 2 版 中 还 有 这 段 表 壕 : “我 们 在 3 个 主机 上 运行 各 个 范式 的 服务 
$8: sunos5 (Solaris) 、alpha (Digital Unix 4.0b) 和 bsdi (BSD/OS 
3.0) 。 注 意 ， 并 非 所 有 服务 器 都 能 在 这 3 个 主机 上 运行 。 举 例 来 说 ， 
行 2 的 服务 器 不 能 在 大 多 数 SVR4 主 机 上 运行 〈 见 30.7 节 中 的 讨论 ) ， 
在 BSD/OS 主 机 上 则 不 能 运行 任何 线程 化 服务 器 〈 因 为 BSD/OS 内 核 不 
支持 线程 ) 。 这 3 个 服务 器 主机 的 硬件 体系 结构 是 不 同 的 ， 因 此 我 们 无 
法 在 它们 之 间 比 较 测 时 结果 。 给 出 这 些 测 时 数据 的 意图 是 在 某 个 给 定 
主机 上 而 不 是 在 不 同人 硬件 体系 结构 和 操作 系统 之 间 比 较 各 个 服务 絮 设 
计 荡 式 ， 也 就 是 说 在 图 30-1 中 我 们 应 该 纵 同 比较 而 不 应 该 模 同 比较 。 
举例 来 说 ， 行 7 的 服务 器 在 Solaris 和 Digital Unix 上 都 是 最 快 的 ， 而 行 2 
的 服务 絮 在 BSD/OS 上 是 最 快 的 。” 鉴 于 第 3 版 新 作者 们 没 能 给 出 全 面 的 
测 时 数据 且 没 有 说 明 服 务 器 运行 环境 ， 本 译本 的 图 30-1 和 图 30-2 采 用 
Stevens 先 生 在 第 2 版 提供 的 测 时 数据 ， 并 附 以 新 作者 们 给 出 的 数据 。 
正如 Stevens 先 生 所 言 这 些 测 时 数据 由 在 纵向 比较 ， 因 此 是 否 采用 新 作 
者 们 的 新 数据 关系 不 大 ， 而 且 采 用 Stevens 先 生 的 数据 更 能 说 明 一 些 细 
T JE o 译 者 注 

@ 图 30-1A 汇 总 了 这 些 测 时 结果 ， 它 是 原 书 第 2 版 中 的 图 27-3。 我 们 需 
D 子 进 程 池 或 线程 池 中 的 分 布 。 
#4] 


PERE dCPUMTICE Re. SMALLS) 
TEA ek HARRE X318. accep CLE | REP URAL, eccepr di XAL | 55213558 AL. accept 
PAE EL P mno MRE Qr SARS Ch) 


DUrix Solaris 


图 30-1A， 过 多 子 进 程 或 线程 对 服务 器 CPU 时 间 的 影响 


@ 此 图 根据 原 书 第 2 版 图 27-3 作 了 修改 。 在 原 书 第 3 版 中 ， 只 保留 了 第 1 
列 中 BSD/OS 的 数据 和 后 几 列 中 Solaris 的 数据 。 译 者 注 


@ 此 命令 行 原 书 为 % client 192.168.1.20 8888 5 500 
4000 ° 编者 注 


加 此 命令 行 原 书 为 % client 192.168.1.20 8888 1 5000 
4000 ° 编者 注 


@ 我 们 在 图 30 中 给 出 了 本 例子 472) 和 将 在 以 后 相关 两 节 讨论 的 另外 
两 个 例子 〈 行 3 和 行 7) 的 CPU 时 间 。 本 例子 (前 2 栏 ) 只 讨论 accept 
阻塞 ， 另 两 个 例子 (后 4 栏 ) 讨论 围绕 accept 的 上 锁 保 护 。 

我 们 看 到 CPU 时 间 随 每 次 增加 另外 15 个 (不 必要 的 ) 的 子 进程 而 增 
加 。 为 了 避免 惊 群 问题 额外 导致 性 能 受 损 ， 我 们 不 希望 有 太 多 的 额外 
子 进程 一 直 闲 置 着 。 一 一 译 者 注 


@Digitial Unix 4.0b 不 支持 这 个 属性 ， 也 就 无 法 运行 这 个 新 版 本 的 服务 
器 程序 。 译 者 注 
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31.1 概述 


在 大 多 数 源 目 SVR4 的 内 核 中 ，X/Open 传 输 接口 (X/Open 
Transport Interface, XTI) 和 网 络 协议 通 常 就 如 终端 IO 系统 那样 也 使 
用 流 系统 (STREAMS system 或 streams system) 实现 。9 


我 们 将 在 本 章 给 出 流 系统 的 概貌 以 及 应 用 程序 用 于 访问 某 个 流 的 
函数 。 我 们 的 目的 只 是 了 解 网 络 协议 在 流 框架 中 的 实现 机 制 。 另 外 我 
们 将 使 用 传输 提供 者 接口 (Transport Provider Interface，TPI) 开发 一 
个 简单 的 TCP 客 户 程 序 。TPI 是 在 基于 流 的 系统 上 XTI 和 套 接 字 通 常 使 
用 的 传输 层 访问 接口 。 包 括 如 何 使 用 流 系统 编写 内 核 例 程 在 内 的 关于 
流 的 更 详尽 信息 参见 [Rago 1993] ° 


流 由 Dennis Ritchie [Ritchie 1984] 设计 ， 并 于 1986 年 随 SVR3 首 
次 广泛 提供 支持 。POSIX 规 范 将 流 定义 为 一 个 选项 组 (option 
group) ， 意 味 着 POSIX 兼 容 系统 可 以 不 实现 流 ， 然 而 若 实现 则 仍然 必 
AGT S POSDOWIE, ° ZEA EK AVL tagetmsg ^ getpmsg ^ putmsg ^ 
putpmsg、fattach 以 及 所 有 流 ioct1 命 令 。XTI 往 往 使 用 流 实 现 。 
所 有 源 自 System V 的 系统 都 应 该 提供 流 ， 然 而 各 个 4xBSD 版 本 并 不 提 


Pie 


Wü (STREAMS) 这 个 名 字 尽 管 全 为 大 写字 母 ， 却 不 是 一 个 首 字 
母 缩写 词 ， 因 此 改 用 全 小 写字 母 (streams) 可 能 更 为 合理 。 注 意 区 分 
我 们 在 本 章 中 讲解 的 流 WVO 系 统 (steams I/O system) 和 “标准 VO 
Vi" (standard I/O steams) 。 后 者 在 论 及 标准 MO 函数 库 (诸如 
fopen ` fgets ` printf KO 时 使 用 。 


31.2 TER 


流 在 进程 和 驱动 程序 (driver) 之 间 提 供 全 双 工 的 连接 ， 如 图 31-1 
所 示 。 虽 然 我 们 称 底 部 那个 方 框 为 驱动 程序 ， 它 却 不 必 与 某 个 便 件 设 
es 也 就 是 说 它 可 以 是 一 个 伪 设 备 张 动 程序 ( 即 软件 驱动 程 
"is o 
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内 核 


图 31-1 


个 进程 和 一 个 邓 


区 动 程序 之 间 的 某 个 流 


流 头 (stream head) 由 一 些 内 核 例 程 构成 ， 应 用 进程 针对 流 描述 
符 执行 系统 调用 〈 例 如 read、putmsg、ioct1 等 ) 时 这 些 内 核 例 程 


将 被 激活 。 


进程 可 以 在 流 头 和 驱动 程序 之 间 动 态 增 加 或 删除 中 间 人 处 理 模块 


(processing module) 


某 种 类 型 的 过 滤 ， 如 图 31-2 所 示 。 


o 这 些 模块 对 顺 着 一 个 流 上 行 或 下 行 的 消 乱 施行 


内 核 


图 31-2 ” 压 入 一 个 处 理 模块 的 某 个 流 


往 一 个 流 中 可 以 推 入 (pushing) 任意 数量 的 模块 。 我 们 说 “ 推 
入 ” 意 指 每 个 新 模块 都 被 插入 到 流 头 的 紧 下 方 。 


多 路 复 选 器 (multiplexor) 是 一 种 特殊 类 型 的 伪 设备 驱动 程序 ， 
它 从 多 个 源 接 受 数 据 。 举 例 来 说 ， 可 在 SVR4 上 找到 的 TCP/PP 协 议 族 基 
于 流 的 某 个 实现 如 图 31-3 所 示 ， 其 中 就 有 多 个 多 路 复 选 器 。 
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图 31-3” ”TCP/IP 基于 流 的 某 种 可 能 的 实现 


。 在 创建 一 个 套 接 字 时 ， 套 接 字 函数 库 把 模块 sockmod 推 入 流 中 。 
向 应 用 进程 提供 套 接 字 API 的 正 是 套 接 字画 数 库 和 sockmod 流 模 
块 两 者 的 组 合 。 

。 在 创建 一 个 XTI 端 点 时 ，XTI 函 数 库 把 模块 tijmod 推 入 流 中 。 辣 应 
用 进程 提供 XTI API 的 正 是 XTI 函 数 库 和 timod 流 模块 两 者 的 组 
合 。XTI API 的 端点 相当 于 套 接 字 API 的 套 接 字 © 


这 里 是 我 们 提 到 XTI 的 少数 儿 处 之 一 。 本 书 早先 版 本 详细 叙述 了 
XTI API， 不 过 它 已 不 被 广泛 使 用 ， 甚 至 POSIX 规 范 也 不 再 洱 盖 它 ， 本 
书 中 我 们 就 不 讲述 了 。 图 31-3 展 示 了 XTI 实 现 所 处 的 典型 位 置 ， 本 章 中 
ee 而 不 提供 任何 细节 ， 因 为 几乎 没有 继续 使 用 XTI 

HF > 


。 为 了 针对 XTI 端 点 使 用 read 和 write 访问 网 络 数据 ， 通 常 必须 把 
模块 tirdwr 推 入 流 中 。 图 31-3 中 中 间 那 个 使 用 TCP 的 进程 就 是 这 
么 做 的 。 推 入 该 模块 后 XTI 函 数 库 中 的 函数 不 能 继续 使 用 ， 那 个 
进程 这 么 做 也 许 已 经 放弃 使 用 XTI， 因 此 我 们 没 给 它 标 上 XTI 函 数 


库 

所 标的 三 个 服务 接口 定义 顺 着 流 上 行 和 下 行 交 换 的 网 络 消 恩 的 格 
式 。 传 输 提 供 者 接口 (Transport Provider Interface, TPI) [Unix 
International 1992b| 定义 了 传输 层 提供 者 (例如 TCP 和 UDP) 向 
它 上 方 的 模块 提供 的 接口 。 网 络 提供 者 接口 (Network Provider 
Interface, NPI) |Unix International | 定义 了 网 络 层 提供 者 ( 例 
如 IP) 癌 它 上 方 的 模块 提供 的 接口 。DLPI 就 是 29.3 节 介绍 过 的 数 
据 链 路 提供 者 接口 [Unix International 1991] 。 关 于 TPI 和 DLPI 可 
另行 参考 [Rago 1993] ， 其 中 给 有 C 代 码 例子 。 


一 个 流 中 的 每 个 部 件 一 一 流 头 、 所 有 处 理 模块 和 驱动 程序 一 一 包 
含 至 少 一 对 队列 (queue) : 一 个 写 队列 和 一 个 读 队 列 ， 如 图 31-4 所 
ZN œ 


流 头 


号 队列 ! 工读 队列 
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图 31-4 流 中 每 个 部 件 至 少 有 一 对 队列 


消息 类 型 

流 消息 可 划分 为 高 优先 级 (high priority) 、 优 先 级 带 (priority 
band) 和 普通 (normal) 三 类 。 优 先 级 共有 256 带 ， 在 0~255 之 间 取 
值 ， 其 中 普通 消息 位 于 带 0。 流 消息 的 优先 级 用 于 排队 和 流量 控制 。 按 
约定 高 优先 级 消息 不 受 流量 控制 影响 。 
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图 31-5 给 出 了 一 个 给 定 队列 中 消息 的 出 现 顺序 。 
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图 31-5 一 个 队列 中 的 流 消 息 基于 优先 级 的 排序 


虽然 流 系统 文 持 256 个 不 同 的 优 移 级 帝 ， 网 络 协议 往往 只 用 代表 经 
加 速 数据 的 带 1 和 代表 音 通 数据 的 市 0。 


TPI 不 认为 TCP 带 外 数据 是 真正 的 经 加 速 数据 。 事 实 上 TCP 的 普通 
数据 和 市 外 数据 都 使 用 带 0。 只 有 那些 让 经 加 速 数据 〈 并 不 是 像 TCP 中 
先 于 但 通 数据 发 送 的 协议 才 使 用 市 1 发 送 经 加 速 数 


注意 “普通 ”一 词 。 在 SVR4 之 前 的 版 本 中 没有 优先 级 帝 的 概念 ， 只 
有 普通 消息 和 优先 级 消息 。SVR4 实 现 了 优先 级 带 ， 并 提供 了 
getpmsg 和 putpmsg 这 两 个 函数 (我 们 稍 后 讲解 ) ， 较 早 的 优先 级 消 
息 于 是 被 重新 命名 为 高 优 移 级 。 问 题 是 如 何 称呼 优先 级 带 在 1~255 之 
间 的 新 增设 消息 。 常 用 的 术语 定义 [Rago 1993] 称 高 优先 级 以 外 的 消 
息 为 普通 优先 级 (normal priority) 消息 ， 然 后 把 这 些 普 通 优先 级 消息 
细 分 到 各 个 优先 级 带 中 。 普 通 消息 一 词 应 该 总 是 指 处 于 带 0 的 消息 。 


尽管 我 们 讨论 的 只 是 普通 优先 级 消息 和 高 优先 级 消息 两 大 类 ， 它 
们 却 分 别 约 有 12 种 和 18 种 。 从 应 用 程序 以 及 我 们 马上 讲解 的 getmsg 
和 putmsg 这 两 个 函数 的 角度 来 看 ， 我 们 仅仅 关注 3 种 不 同类 型 的 消 
J: M DATA^ M_PROTOAIM_PCPROTO (PC 表示 “priority control”, fi 
先 级 控制 ， 隐 指 高 优先 级 消息 ) 。 图 31-6 说 明了 这 3 种 消息 类 型 是 如 何 
使 用 write 和 putmsg 这 两 个 函数 产生 的 。 


控制 ? 数据 ? = 所 产生 消息 的 类 型 


putmsg 不 是 是 M DATA 
putmsg 是 无 其 0 M_PROTO 
putmag 是 xXx MSG HI?RT M PCPROTO 


图 31-6 ”由 write 和 putmsg 产 生 的 流 消息 类 型 


我 们 将 在 下 一 节 讲 解 putmsg 函 数 时 解释 控制 、 数 据 和 标志 。 
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31.3 getmsg#lputmsg Hat 


沿 着 流 上 行 和 下 行 的 数据 由 消息 构成 ， 而 且 每 个 消息 含有 控制 
(control) 或 数据 (data) 亦 或 两 者 都 有 。 如 有 果 在 流 上 使 用 read 和 
write， 那 么 所 传送 的 仅仅 是 数据 。 为 了 让 进程 能 够 读 写 数据 和 控制 

两 部 分 信息 ， 流 系统 增加 了 如 下 两 个 函数 : 


#include <stropts.h> 


int getmsg(int fd, struct strbuf *ctlptr, struct strbuf *dataptr, 
int *flagsp); 


int putmsg(int fd, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int flags); 


IRI: ERDA 


非 负 值 ， 若 出 错 则 为 -1 
请 已 的 控制 和 数据 两 部 分 各 目 由 一 个 strbuf 结 构 说 明 。 


struct strbuf { 
int maxlen; /* maximum size of buf */ 
int len; /* actual amount of data in buf */ 


char *buf; /* data */ 
ti 


注意 strbuf 结 构 和 XTI API 所 用 的 netbuf 结 构 之 间 的 相似 性 。 
它们 由 3 个 同名 成 员 构成 ， 不 过 netbuf 结 构 的 两 个 长 度 成 员 是 无 符号 
整数 ， 而 strbuf 结 构 的 两 个 长 度 成 员 是 普通 整数 。 原 因 在 于 有 些 流 
函数 使 用 值 为 -1 的 len 或 maxLen 表 示 特 殊 的 含义 。 


使 用 putmsg 可 以 单纯 发 送 控制 信息 或 数据 ， 也 可 以 同时 发 送 两 
者 。 为 了 指示 缺失 控制 信息 ， 可 以 把 ctlptr 参 数 指定 为 空 指针 ， 也 可 以 
把 ctlptr->len 设 置 为 -1。 同样 手段 设置 dataptr 参 数 用 于 指示 缺失 数据 。 


如 果 缺 失控 制 信息 ，putmsg 将 产生 一 个 M_DATA 消 息 (图 31- 
6) ; 否则 根据 flags 参 数 产 生 一 个 M_PROTO 或 M_PCPROTO 消 息 。flags 
值 为 0 表示 普通 消息 ， 为 RS_HIPRI 表 示 高 优先 级 消息 。 


getmsg 的 最 后 一 个 参数 是 一 个 值 一 结果 参数 。 如 果 调 用 时 指定 
的 flagsp 指 向 的 整数 值 为 0， 那 么 返回 的 是 流 中 第 一 个 消息 ( 既 可 能 是 
普通 消息 ， 也 可 能 是 高 优先 级 消息 ) 。 如果 该 整数 值 为 RS_HIPRI， 
那 就 等 待 一 个 高 优先 级 消息 到 达 流 头 。 无 论 哪 种 情况 ， 存 放 到 jagsp 指 
回 的 整数 中 的 值 根据 所 返回 消息 的 类 型 或 为 0， 或 为 RS_HIPRI。 


假设 传递 给 getmsg 的 ctiptr 和 dataptr 参 数 均 为 非 空 指针 ， 如 果 没 
有 控制 信息 待 返回 (也 就 是 即将 返回 一 个 M_DATA 消 息 ) ，getmsg 就 
在 返回 时 把 ctlptr->len 设 置 为 -1 作为 指示 。 类 似 地 如 有 果 没 有 数据 待 返 回 
就 把 dataptr->len 设 置 为 -1。 
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putmsg 在 成 功 时 返回 0， 在 出 错时 返回 -1。 然 而 getmsg 仅 在 整个 
消 轧 完整 返回 给 调用 者 时 才 返 回 0。 如 有 果 控 制 缓冲 区 不 足以 容纳 完整 的 
控制 信息 ， 那 就 返回 非 负 的 MORECTL， 类 似 地 如 果 数 据 缓冲 区 太 小 ， 
o i ° 如 采 两 个 缓冲 区 都 太 小 ， 那 就 返回 这 两 个 标志 
的 逻辑 或 。 


31.4 _ getpmsg 和 putpmsg 画 数 


当 对 于 不 同 优先 级 带 的 支持 随 SVR4 被 增加 到 流 系 统 时 ， 以 下 两 个 
getmsg/iliputmsgH Ze JEN ZI tg ETA ° 
#include <stropts.h> 


int getpmsg(int fd, struct strbuf*ctlptr, 
struct strbuf*dataptr, int*bandp, int *flagsp); 


int putpmsg(int fd, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int band, int flags); 


HRE: Ae BTA AE fA 


aM - 1 


putpmsg 的 band 参 数 必 须 在 0~255 之 间 (€) 。 如 果 flags 参 数 为 
MSG_BAND， 那 就 产生 一 个 所 指定 优先 级 带 的 消息 。 把 flags 设 置 为 
MSG_BAND 并 且 把 band 设 置 设 为 0 等 效 于 调用 putmsg。 如 果 flags 为 
MSG_HIPRI，band 束 必须 为 0%， 所 产生 的 是 一 个 高 优先 级 消息 。 QE 
意 ，putmsg 使 用 不 同名 字 的 RS_HIPRI 标 志 。) 


getpmsg 的 bandp 和 flagsp 参 数 是 值 -结果 参数 。flagsp 指 问 的 整数 
可 以 取 值 MSG_HIPRI (以 读 入 一 个 高 优先 消息 -MSG BAND (以 读 
入 一 个 优先 级 至 少 为 bandp 指 癌 的 整数 值 的 消息 ) 或 MSG_ANY (LU 
入 任 一 消息 ) ° 函数 返回 时 ，bandp 指 癌 的 整数 合 有 所 读 入 消息 的 优先 
级 带 ，flagsp 指 向 的 整数 含有 MSG_HIPRI (如 果 所 读 入 的 是 一 个 高 优 
先 级 消息 ) 或 MSG_BAND (如 果 所 读 入 的 是 其 他 类 型 消息 )。 


315 ioctlAx 
在 流 系 统 中 我 们 将 再 次 使 用 在 第 17 革 中 讲解 过 的 joct1l1 函 数 。 


#include <stropts.h> 
int ioctl(int fd, int request, ... /* void *arg */ ); 


返 


则 为 0， 若 出 错 则 为 -1 
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与 17.2 万 给 出 的 函数 原型 相 比 ， 唯 一 的 变化 是 处 理 流 时 所 必须 包 
售 的 头 文件 是 不 一 样 的 。 

大 约 有 30 个 ioct1 请 求 影响 流 头 ， 每 个 请 求 均 以 I_ 打头 ， 它 们 的 
具体 说 明 通 常 在 streamio 手 册页 面 中 给 出 。 


31.6 TPI: 传输 提供 者 接口 


在 图 31-3 中 ， 我 们 把 TPI 表 示 为 传输 层 回 它 上 方 的 模块 提供 的 服务 
接口 。 在 流 环境 中 套 接 字 和 XTI 都 使 用 TPI。 在 图 31-3 中 ， 应 用 进程 跟 
TCP 和 UDP 交换 TPI 消 息 的 是 套 接 字 函数 库 和 Sockmod 的 组 合 ， 或 者 
是 XTI 函 数 库 和 timod 的 组 合 。 


TPI 是 一 个 基于 消息 的 接口 。 它 定义 了 在 应 用 进程 《例如 XTI 函 数 
库 或 套 接 字 函数 库 ) 和 传输 层 之 间 沿 着 流 上 行 和 下 行 交换 的 消息 ， 包 
括 消 恩 的 格式 和 每 个 消息 执行 的 操作 。 在 许多 实例 中 ， 应 用 进程 向 拓 
供 者 发 出 一 个 请 求 ( 壁 如 说 “捆绑 这 个 本 地 地 址 ”) ， 提 供 者 则 发 回 一 
个 啊 应 “成功” 或 出错”) 。 一 些 事件 在 提供 者 异步 地 发 生 (对 某 个 
服务 器 的 连接 请 求 的 到 运 ) ， 它 们 导致 沾 看 流向 上 发 送 的 消息 或 信 
E o 


RITE DASE X TIM ERS EL B2 f ATPL ^ 34 AHEAD EH TPI 
取代 套 接 字 重 新 编写 我 们 的 简单 时 间 获 取 客 户 程序 (图 1-5) 。 拿 编程 
语言 进行 类 比 ， 使 用 套 接 字 或 XTI 好 比 使 用 诸如 C 或 Pascal 等 高 级 语言 
编程 ， 而 直接 使 用 TPI 好 比 使 用 汇编 语言 编程 。 我 们 并 不 提倡 在 现实 应 
用 程序 中 直接 使 用 TPI。 不 过 查看 TPI 如 何 工作 并 开发 本 例子 有 助 于 我 
们 更 好 地 理解 在 流 环 境 中 套 接 字 函 数 库 和 XTI 芳 数 库 的 工作 原理 。 


图 31-7 是 我 们 的 tpi_daytime.h 头 文件 。 


t "tpi unite. 
1 B_nclude "ur.pxL i . t" 
z "include «Sys/scream.h» 
3 #iunclude <cye/tihdr.h> 
4 void tpi bind(iat. const void *, size t): 
=! i tpi connact in-, const void *, siz a 
6 ssize t tpi read(int, void *, siza =); 
7 void tpa_cleosc int); 
f. tpi wie. h 


图 31-7 我 们 的 tpi_daytime.h 头 文件 


我 们 需要 与 <sys/tihdr.h> 一 道 包含 一 个 额外 的 流 头 文件 
<sys/stream.h>， 其 中 前 者 给 出 了 所 有 TPI 消 恩 的 结构 定义 。 


co 
ul 
ee) 


图 31-8 是 我 们 的 时 间 获 取 客 户 程序 的 main 函 数 。 


streanestpt_deviinte.c 


1 #incluide "tpi dayLimue.Li* 

2 int 

3 main(int args, canar **argv)} 

4 | 

5 int fd, 3; 

6 char recvline [MAXLINE + 1]; 

" struct g2c«addr in myaazdr, eervaddr, 

6 i: (arse !- 2) 

a err quit("usage: tpi daytime <IPađdiressə"); 

10 fd = Oper(X7I TC2, O RDWR, C); 

1i /*bind any local sddrees */ 

12 bserolG&myaddr, sizeotimyacdr)) ; 

13 myadi-.sin family = AP_INET; 

14 myadir.sin_ addr. s add = rtonl[INADIR ANY} ; 

15 myadzr.scin port = htons{0); 

16 tpi bind(fd, &myaddr, sizeof struct socksddr ia3]); 
7 /*fill in server's address */ 

18 bzevo(&ssrvaddr, sizeof i(ssrvaddr)); 

9 cervaddr.cin tamily = AF INET; 

26 servsdór.sin pcrt - htons(i3!; /* Gaytime server */ 
21 Tnet ptor(AF TNET, &-gvl1], &servaddr.sir adir); 
22 tpi cocnscrtifd, &servadd-, sizecf(struct sockaddr ini); 
23 for (37) { 

24 if i in - tpi_readifd. recvline. MAXLINE)) «= 0) { 
25 if in zs 4) 

26 break; 

27 ¢.8¢ 

26 err sysi"tpi resd error"): 

29 } 

30 recvline[n] = 0; /* null terminets */ 
31 Epata;recvlins, stdcuz); 

32 } 

a1 tpi vclose(fd); 

34 exitio); 

35 ] 


strecms/tpi. davtine.c 


图 31-8 ”TPI 时 间 获 取 客 户 程 序 的 main 函 数 
打开 传输 提供 者 ， 捆 绑 本 地 地 址 


10-16 打开 与 传输 提供 者 TCP 对 应 的 设备 (通常 
为 /dev/tcp) 。 以 INADDR_ANY 和 端口 0 填写 一 个 网 际 网 套 接 字 地 址 
结构 ， 告 知 TCP 捆 绑 任 意 一 个 本 地 地 址 到 本 地 端点 。 押 绑 工作 通过 调 
用 我 们 稍 后 给 出 的 tpz_bind 函 数 完成 。 
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填写 服务 器 地 址 ， 建 立 连 接 

17-22 以 服务 器 主机 IP 地 址 ( 取 自 命令 行 ) 和 端口 13 填 写 另 一 
个 网 际 网 套 接 字 地 址 结构 ， 然 后 调用 我 们 的 tpi_connect 函 数 建立 
连接 。 
从 服务 器 读 入 数据 ， 复 制 至 标准 输出 

23-33 与 其 他 时 间 获 取 客 户 程序 一 样 ， 我 们 简单 地 把 数据 从 连 
接 复 制 到 标准 输出 循环 ， 并 在 接收 到 来 自 服务 器 的 EOF 〈 即 FIN 分 节 ) 
时 跳出 循环 然后 调用 我 们 的 tpi_close 函 数 关 闭 端 点 。 


图 31-9 是 我 们 的 tpi_bind 函 数 。 


streams ipi_bing.c 


1 #include “tpi_dayzime.h" 

2 waid 

3 tpi bindl!irt žá, const void *addr, size t adZrler,; 

Rut 

5 struct [ 

5 struct 7 bind rwy nasg twr; 

7 char addr [128] ; 

8 ] bind veq; 

9 szruc- | 

16 struct T bind ack msg udr; 

11 char addr [128]; 

12 ] bind ack; 

13 struae- strbuf ct]1baf; 

14 s-rac- T error ack ‘error ack; 

15 int tlage; 

16 bind req.msg hz2r.PRIM type = T_EIND RBO; 

17 bind reg.meg bor. ADDR length = addrlen; 

18 bind req.meg hir.ALDa offset ~ s:zecf(szruct T bind req); 
19 bind req.meq hir.CONIND number = U; 

20 memcpy bind rez.addr, addr, addrisn), /* sockaddr inl| */ 
21 ctlwmuf.len s sizeofistruct T hind req!» e addrlen; 

22 czlouf.buf = [char +) ¿bind req; 

23 Patmsqifd, actlbut, NULL, 0); 

24 etlouf.maxlen = sizecf (bind_ack) ; 

25 czluuf.len = 0; 

26 czlouf.buf - (char *) «bind ack; 

ET tlags - RS HIPRI; 

28 Getmsai!zd. &ctlbuf, NULL. &flage!; 

29 if (c-Tmuf.len « fine) sizepof(lcna)) 

40 err suit("fad length from getmsg") ; 

31 ewiteh (bind ack.nsq hdr.PRIM types) 1 

32 case T BINZ ACX: 

33 return; 

34 case T ERROR ACK: 

35 a= [ctlbuf.len < lint) cizeot (struct T crror àck:) 
36 err_gquit ("bad length for T ERROR ACK"':; 

a7 error ack = (sacruct Ter ror_ack +) hind ack mag hdr: 
48 err cuit ("Ll ERROR ACK from bind itd, %4)", 

39 errcr ack >TLI_error, error ack >UNIX_error| ; 
40 default ; 

31 err suit (“unexpected message -ype: $i", bind ack. me: tir ERIM type): 
42 } 

43 | 


图 31-9 tpi bindENZ&. 捆绑 一 个 本 地 地 址 到 一 个 端点 


填写 T_bind_req 结 构 


SIFoOmns ipi bind.c 


16-20 <sys/tihdr.h> 头 文件 如 下 定义 T_bind_req 结 构 。 


struct T_bind_req { 
t_scalar_t PRIM_type; /* T_BIND_REQ */ 
t_scalar_t ADDR_length; /* address length */ 
t_scalar_t ADDR_offset; /* address offset */ 
t_uscalar_t CONIND number; /* connect indications 


requested */ 


/* followed by the protocol address for bind */ 
}; 


所 有 TPI 请 求 都 定义 成 以 一 个 长 整数 类 型 字段 开头 的 某 个 结构 。 我 
们 把 bpind_req 结 构 定 义 为 以 T_bind_req 结 构 打 头 ， 后 跟 用 于 存放 
待 捆绑 本 地 地 址 的 一 个 缓冲 区 。TPI 对 该 缓冲 区 的 内 容 未 做 任何 规定 ， 
它 由 具体 的 提供 者 定义 。TCP 提 供 者 期 待 该 缓冲 区 含有 一 个 
sockaddr_in 结 构 。 


填写 T_bind_req 结 构 ， 把 ADDR_length 成 员 设置 成 地 址 大 小 
(对 于 网 际 网 套 接 字 地 址 结构 为 16 字 节 ) ， 把 ADDR_offset 设 置 成 
地 址 的 字 节 偏 移 量 ( 紧 跟 在 T_bind_req 结 构 之 后 ) 。 这 个 位 置 难以 
保证 是 为 即将 存放 在 那儿 的 sockaddr_in 结 构 适当 地 对 齐 的 ， 因 此 
我 们 调用 memcpy 把 调用 者 给 定 的 地 址 结构 复制 到 bind_req 结 构 中 
(而 不 是 使 用 结构 赋值 运算 等 方式 ) o 既然 我 们 是 客户 而 不 是 服务 
器 ， 于 是 把 CONIND_number 设 置 为 0。 


调用 putmsg 


21-23 TPI 要 求 把 我 们 刚 构 造 的 结构 作为 一 个 M_PROTO 消 息 传 
递 给 提供 者 。 于 是 我 们 把 这 个 bind_req 结 构 指 定 为 控制 信息 调用 
putmsg， 同 时 指定 缺失 数据 且 标 志 为 0。 


调用 getmsg 读 入 高 优先 级 消息 


24-30 ”对 于 T_BIND_REQ 请 求 的 响应 或 者 是 T_BIND_ACK 消 
息 ， 或 者 是 T_ERROR_ACK 消 息 。 这 些 确 认 消 息 是 作为 高 优先 级 消息 
(M_PCPROTO) 发 送 的 ， 我 们 于 是 指定 RS_HIPRI 标 志 调 用 getmsg 
读 入 它们 。 既 然 该 应 管 是 一 个 高 优先 级 消息 ， 它 将 绕 过 流 中 任意 普通 
优先 级 消息 。 
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XX ^ Ay BEA DE EEA T 


struct T_bind_ack { 
t_scalar_t PRIM_type; /* T_BIND_ACK */ 
t_scalar_t ADDR length; /* address length */ 
t scalar t ADDR offset; /* address offset */ 
t uscalar t CONIND number; /* connect ind to be queued */ 
/*followed by the bound address */ 


】 


struct T_error_ack { 
t_scalar_t PRIM_type; /* T_ERROR_ACK */ 
t_scalar_t ERROR_prim; /* primitive in error */ 
t_scalar_t TLI_error; /* TLI error code */ 
t_scalar_t UNIX_error; /* UNIX error code */ 


这 两 个 消息 都 以 一 个 同样 的 类 型 成 员 打 头 ， 因 此 我 们 可 以 假设 它 
古 一 个 T_BIND_ACK 消 奶 读 入 应 答 ， 查 看 类 型 值 之 后 再 相应 地 处 理 该 
消息 。 我 们 不 期 望 来 自 提供 者 的 任何 数据 ， 因 此 把 getmsg 的 第 三 个 
参数 指定 为 空 指针 。 


在 验证 所 返回 的 控制 信息 量 至 少 是 一 个 长 整数 的 大 小 时 ， 我 们 必 
须 小 心地 把 sizeof 的 值 类 型 强制 转换 成 一 个 整数 。sizeof 运 算 符 返 
回 的 是 一 个 无 符号 整 型 ， 而 getmsg 返 回 的 strbuf 结 构 len 成 员 可 能 
是 -1。 然而 由 于 小 于 比较 运算 符 的 左边 是 一 个 有 符号 值 ， 右 边 是 一 个 
无 符号 值 ，C 编 译 器 于 是 把 有 符号 值 类 型 转换 成 无 符号 值 。 在 补 码 

(twos-complement) 体系 结构 上 ，-1 作 为 无 符号 值 看 竺 非常 之 大 ， 导 
致 -1 大 于 4 (假设 一 个 长 整数 占据 4 个 字 节 ) 。 


处 理应 答 


31-33 ”如果 应 答 是 T_BIND_ACK， 那 么 捆绑 成 功 ， 我 们 于 是 返 
回 。 绑 定 在 端点 上 的 实际 地 址 由 bind_ack 结 构 的 addr 成 员 返 回 。 


34~39 如 果 应 答 是 T_ERROR_ACK， 那 就 验证 所 收 到 的 是 完整 
的 消息 ， 然 后 显示 消息 结构 中 的 3 个 返回 值 。 在 我 们 这 个 简单 的 程序 
中 ， 如 果 发 生 错 误 就 直接 终止 ， 而 不 再 返回 到 调用 者 。 
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户 权 限 ， 因 为 它 是 一 个 1024 以 内 的 端口 ) ， 我 们 将 得 到 如 下 输出 : 


T_ERROR_ACK from bind (3, 0) 
该 系统 上 错误 EACCES 的 值 为 9)。 如 果 我 们 党 试 捆绑 一 个 1023 以 上 
却 正 被 另 一 个 TCP 端 点 使 用 的 端口 ， 我 们 将 得 到 如 下 输出 : 


solaris % tpi_daytime 127.0.0.1 
T_ERROR_ACK from bind (23, 0) 
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该 系统 上 错误 EADDRBUSY 的 值 为 23。% 


下 一 个 函数 是 图 31-10 中 的 tpi_connect， 它 建立 与 服务 器 的 连 
接 。 


sfreamsitji comeci.c 
2 #include "Lpi day.ime.h" 
2 void 


3 tpi connect(int fd, conet voic *acdr, size_t addrien) 


E 

5 struc- [ 

6 struct T conn reg msg hdr; 

7 car adzr[-28]; 

8 i cona zeq. 

9 struc [ 

10 struct T conn son msg hdr; 

1i enar adzr|-28]; 

12 ; conma con; 

13 struct strbuf ctlbuf; 

14 un-on T primitives  rcvbuf; 

15 struct T error ack ‘*error_ack; 

16 struct Todiscon ind *discon Ond; 

27 int flags; 

18 ccnn req.meq har.PHIM type = T CONN RZQ; 
19 cconn_req.msg_hdr.DEST_length = addrlen; 
20 conn reg.asg heir DEST offset = sizecfí(s-ruct T com: req); 
ai ccnn req.meg hir.OPpT length - 0; 


Co 
c 
Ww 


22 ccnn req.msg hi-.OPT offset = 0; 


23 mancpy (conn_reg.addr, addr, addrien); /* scekaddr_in{} */ 
24 ctibuf. len = sizeof {struct T conn req) + addrlen; 

25 ctlbuf.buf = (char *) aconn_req; 

26 Pautusgifd, &ctlbuf, NULL, 0); 

27 etlbul makler = sizeof (union Toorimit ives! ; 

48 SEEUE .Len ~ 0; 

29 St-bu5 .buE = (char +) arcvbut; 

30 flags = R3 HIPRT; 

at Getosgifd, actlbuf, NULL, flags); 

az if (crzlbuf.len < [int] siseof(long)) 

a3 err aquit("tpi conncct: baad length from qctmoso'!; 

34 s«-tcalrcvbuf.tyrze) { 

35 case T ON ACK: 

36 break: 

37 cace T ERROR ACK: 

28 if (ctlbuf.len < iint} sizecf(scruct T errcr ack!) 

39 err muit("tpi cnnnect: had leng-h for T RRROR ACK':; 
49 error ack = (struct T error ack ?) erevbuf; 

4- crr quit("tpi connect: T ERROR ACK trom com ibd, td)", 
42 errcr ack-»TLI error, error ack-»-NIX errcr!; 
41 default: 

g4 err quit("rpi connect: unexpected message tyre: *d', revbuf.type); 
45 } 

46 ctlbuE.maxler - sizecf (conn con): 

47 cr-buf.len = 0; 

qs etlbuf buf = (char *) «conn con; 

49 tlaga = 0; 

5 Getvsg!fd, actlbuf, NULL, «flags! ; 

si if (clLibul.len < fo sizeof(longl) 

52 err quit("tpi connect2: bad length from cezmag"): 

53 £wLtcaleonn con.mog ndr.PRIM tyce) { 

54 case T CONN CON. 

$5 break ; 

56 case T DISCON IND: 

67 it (ctlbuf.-en < (int) Eizecf (struct T diecon ind)! 

58 err_quit("tpi_connect2: bad length for 7 DISCON IND";; 
59 discon ind = ‘struct T iisccn ind *! &corn ccn.msg kdr, 
ED err quit("rpi connect2: 7 DISCON IND from conn işdi", 
65 discon ind--DISCUN reason); 

c2 default; 

ES err quit ("tpi connect2: unexpected messace type: 8d", 
Ea coni oog.msg hdr.PR7M type) ; 

ES } 

€6 : 


Sfreamsitpi comeci.c 
图 31-10 tpi connectHENZit: 建立 与 服务 器 的 连接 


填写 请 求 结构 并 发 送 给 提供 者 


18-26 TPI 定 义 了 一 个 T_conn_req 结 构 ， 用 于 存放 连接 的 协议 
地 址 和 选项 : 


struct T_conn_req { 
t_scalar_t PRIM_type; /* T_CONN_REQ */ 
t_scalar_t DEST_length; /* destination address length */ 
t_scalar_t DEST_offset; /* destination address offset */ 
t_scalar_t OPT_length; /* options length */ 


t_scalar_t OPT_offset; /* options offset */ 
/* followed by the protocol address and options for 
connection */ 


i 


束 像 tpi_bind 函 数 一 样 ， 我 们 目 行 定义 一 个 名 为 conn_req 的 
结构 ， 它 包含 一 个 T_conn_req 结 构 以 及 用 于 存放 协议 地 址 的 空间 。 
填写 一 个 conn_req 结 构 ， 把 处 理 选 项 的 那 两 个 成 员 设 置 为 0° 单纯 指 
定 控制 信息 调用 putmsg， 同 时 把 标志 指定 为 0， 以 顺 着 流下 行 发 送 一 
个 M_PROTO 消 息 。 


读 入 响应 


27-45 调用 getmsg 期 待 接收 T_0K_ACK 消 息 (如 果 连 接 建立 已 
经 启动 ) 或 者 T_ERROR_0K 消 息 (早先 已 经 给 出 ) 。 


struct T_ok_ack { 
t_scalar_t PRIM_type; /* T_OK_ACK */ 


t_scalar_t CORRECT_prim; /* correct primitive */ 


ie 
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如 果 发 生 错 误 就 终止 。 既 然 不 知道 将 收取 什么 类 型 的 消息 ， 我 们 
于 是 定义 一 个 名 为 T_primitives 的 由 所 有 可 能 的 请 求 和 应 答 组 成 的 
联合 ， 并 分 配 一 个 这 个 类 型 的 联合 ， 在 调用 getmsg 时 用 作 控 制 信息 
的 输入 缓冲 区 。 


等 待 连接 建立 完成 


46-65 ”表示 成 功 的 T_O0K_ACK 消 息 只 是 告诉 我 们 连接 建立 已 经 
启动 。 现 在 必须 等 待 T_CONN_CON 消 息 以 获悉 对 端 已 经 确认 该 连接 请 


struct T_conn_con { 
t_scalar_t PRIM_type; T_CONN_CON */ 
t_scalar_t RES length; responding address length 


t scalar t RES offset; responding address offset 


t scalar t OPT length; /* option length */ 
t scalar t OPT offset; /* option offset */ 
/* followed by peer's protocol address and options */ 


再 次 调用 getmsg， 不 过 所 期 符 的 消息 是 作为 一 个 MA_PROT0 消 息 
而 不 是 一 个 M_PCPROT0 消 息 发 送 的 ， 于 是 把 标志 设置 为 0。 如 果 接 收 
到 T_CONN_CON 消 上 息 ， 那 么 连接 建立 完毕 ， 函 数 接着 返回 ; 但 是 如 果 
连接 未 能 建立 (对 端 进程 不 在 运行 、 发 生 超时 等 原因 ) ， 那 就 会 收 到 
一 个 T_DISCON_IND 消 息 : 


struct T_discon_ind { 
t_scalar_t PRIM_type; /* T_DISCON_IND */ 
t_scalar_t DISCON_reason; /* disconnect reason */ 
t scalar t SEQ number; /* sequence number */ 


我 们 可 以 设法 得 看 由 提供 者 返回 的 各 种 错误 。 首 先 指定 一 个 不 在 
运行 标准 daytime 服 务 占 的 主机 的 IP 地 址 : 


solaris % tpi daytime 192.168.1.10 


tpi_connect2: T_DISCON_IND from conn (146) 


错误 146 表 示 ECONNREFUSED。 接 着 指定 一 个 未 接 入 因特网 的 IP 
HEHE: 


solaris % tpi_daytime 192.3.4.5 


tpi_connect2: T_DISCON_IND from conn (145) 


背 误 145 表 示 ETIMEDOUT。 再 次 对 该 IP 地 址 运行 本 程序 ， 我 们 得 
到 另 一 个 错误 : 


solaris % tpi_daytime 192.3.4.5 


tpi_connect2: T_DISCON_IND from conn (148) 


这 次 错误 148 表 示 EHOSTUNREACH。 最 后 两 个 结果 的 区 别 在 于 ， 
第 一 次 没有 导致 ICMP 主 机 不 可 达 错 误 的 返 送 ， 第 二 次 则 导致 返 送 这 个 
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图 31-11 给 出 下 一 个 函数 tpi_read， 它 从 一 个 流 中 读 入 数据 。 


streamsipi_read.c 


L 4include "tpi dayLime.lh* 


2 ssize t 
3 pl read[int td, void *burt, size t len! 


4 ( 

5 struct srrcuf ctlbuf; 

5 struct str-uf datbuf; 

7 union T primitives rcvbut; 

3 int ELags; 

3 ctlbuf.raxlen = sizeof (union T primitives!) ; 
19 Ctlbuf.buf - ichar *! urcvbuf; 

11 datbut.msxlen = Len; 

12 datbut.buft - buf; 

13 atin? (en = 0; 

14 flags - C: 

15 Getmeq(fs, &otlbuf, &datbuf, &flaas!; 

16 ii (ctlbuf.len >- (int! sizsof[longi) { 

17 if oirevhaf.t ype == T_PATR_TNDI 

18 return (datbc? .- zn) ; 

19 else if (rcevbu=.typ2 == T ORDREL IND) 
20 rezum (01; 

?1 "E 

22 err quic('tpi read: unexpected type &d", rcvbuf.typs;; 
23 ) else if (ctlzuf.len -= -1) 

24 return (datbut.12n); 

25 else 

2€ err quit('tpi read: bad length from getmsg*); 
27 ] 


sireamsApi read.c 
图 31-11 tpi readPEXZK: 从 流 中 读 入 数据 


读 控 制 信息 和 数据 ， 处 理应 答 


9-26 ”这 次 我 们 调用 getmsg 同 时 读 入 控制 信息 和 数据 。 用 于 返 
回 数据 的 strbuf 结 构 指向 调用 者 给 定 的 缓冲 区 。 在 读 入 时 可 能 会 在 
流 上 出 现 4 种 不 同情 形 。 


。 数据 作为 一 个 M_DATA 消 息 到 达 ， 这 通过 返回 的 控制 长 度 被 设置 
为 -1 指示 。 数 据 由 getmsg 复 制 到 调用 者 给 定 的 缓冲 区 ， 其 长 度 则 
作为 本 函数 的 返回 值 返 回 。 

。 数据 作为 一 个 M_DATA_IND 消 息 到 达 ， 这 种 情况 下 控制 信息 是 一 
个 T_data_ind 结 构 。 


struct T_data ind { 
t_scalar_t PRIM_type; /* T_DATA_IND */ 


t_scalar_t MORE _flag; /* more data */ 
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如 果 返 回 这 样 的 消息 ， 我 们 就 忽略 MORE_f1ag 成 员 (对 于 像 TCP 
这 样 的 字 世 流 协议 该 成 员 不 可 能 被 设置 ) ， 并 返回 由 getmsg 复 制 到 
调用 者 给 定 的 绥 冲 区 中 的 数据 的 大 小 。 
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struct T ordrel ind { 


t scalar t PRIM type; /* T ORDREL IND */ 
3 
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。 到 达 一 个 T_DISCON_IND 消 轧 ， 表 示 收 到 一 个 断 连 请 求 。 对 于 
TCP 提 供 者 ， 本 情形 发 生 于 在 一 个 已 存在 连接 上 收 到 一 个 RST 之 
后 。 在 我 们 这 个 简单 的 例子 中 ， 我 们 不 处 理 这 种 情形 。 


图 31-12 是 我 们 的 最 后 一 个 函数 tp 二 close。 


streanrs/tpt_clove.c 


1 Bice lude "tp _day ime. h" 

2 void 

3 tpi clcseiint fa 

a ( 

5 szracz T ordrel req ordrcl rca; 

6 struct strbuf ctlbuf; 

7 ordrel xzeG.PR_M type = T URDREL KEY; 

a el lou len s sizeof (st ruct T ordrel rep; 
E cclouf.buf = (char *) sordrel req; 

10 Putmsgizd, &ctlbuf, NULL, 0): 


il Close (fd); 


srreams/rpi. close.c 
图 31-12 tpi close/N2W: 向 对 端 发 送 一 个 顺序 释放 
向 对 端 发 送 顺序 释放 


7-10 构造 一 个 T_ordrel_req 结 构 并 调用 putmsg 将 其 作为 一 
个 M_PROTO 消 息 发 送出 去 。 本 函数 相应 于 XTI 的 t_sndrel 函 数 。 


struct T_ordrel req { 


long PRIM type;  /* T_ORDREL_REQ */ 


本 例子 给 我 们 展示 了 TPI 的 风味 。 应 用 进程 沿 着 流下 行 同 提供 者 发 
送 消息 (请求;， 提 供 者 则 沿 着 流 上 行 发 送 回 消息 (应答) 。 一 些 消 
县 交换 是 比较 简单 的 请 求 -应 答 情 形 〈 例 如 捆绑 一 个 本 地 地 址 ) ， 男 一 
些 消息 交换 则 需要 耗费 一 段 时 间 〈 例 如 建立 一 个 连接 ) ， 并 允许 我 们 
和 等 竺 应 答 期 间 做 些 事情 而 不 是 空 等 。 我 们 选择 编写 使 用 TPI 的 TCP 窜 
户 程 序 而 不 是 服务 郁 程 序 是 为 了 简单 ， 编 写 使 用 TPI 的 服务 万 程序 并 合 
理 地 处 理 连接 则 要 困难 得 多 。 
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从 XTI 到 TPI 的 函数 映射 比较 接近 ， 而 从 套 接 字 到 TPI 的 映射 却 不 
那么 接近 。 尽 管 如 此 ， 无 论 是 XTI 函 数 库 还 是 套 接 字 函数 库 都 处 理 了 
TPI 所 需 的 大 量 细 市 ， 从 而 简化 了 应 用 程序 的 编写 。 


我 们 可 以 比较 一 下 在 本 章 中 看 到 的 使 用 TPI 完 成 网 络 操作 与 在 套 接 
字 实 现 于 内 核 中 的 系统 上 完成 同样 操作 所 需 的 系统 调用 个 数 。TPI 情 形 


捆绑 一 个 本 地 地 址 需要 2 个 系统 调用 ， 内 核 套 接 字 情形 只 需要 1 个 
(TCPv2 第 454 页 ) 。TPI 情 形 在 一 个 阻塞 式 描述 符 上 建立 一 个 连接 需 
要 3 个 系统 调用 ， 内 核 套 接 字 情形 只 需要 1 个 〈TCPv2 第 466 页 ) 


31.7 ”小结 


XTI 一 般 使 用 流 来 实现 。 为 访问 流 子 系统 而 提供 的 4 个 新 函数 是 
getmsg、getpmsg、putmsg 和 putpmsg， 已 有 的 ioct1 函 数 也 被 
流 子 系统 频繁 使 用 。 


TPI 是 从 上 层 进入 传输 层 的 SVR4 流 接口 。XTI 和 套 接 字 均 使 用 
TPI， 如 图 31-3 所 示 。 作 为 展示 TPI 所 用 的 基于 消息 接口 的 一 个 例子 ， 
我 们 直接 使 用 TPI 开 发 了 时 间 获 取 客 户 程序 的 一 个 版 本 。 


习题 


31.1 ”在 图 31-12 中 ， 我 们 调用 putmsg 沿 着 流下 行 发 送 一 个 顺序 
释放 请 求 ， 然 后 立即 关闭 该 流 。 如 果 在 关闭 该 流 期 间 我 们 的 顺序 释放 
请 求 被 流 子 系统 弄 丢 ， 将 会 发 生 什么 ? 
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@XTI 是 独立 于 套 接 字 API 的 另 一 个 网 络 编程 API。 本 章 在 本 书 第 2 版 中 
属于 第 四 部 分 (X/Open 传输 接口 编程 ，， 第 3 版 仅仅 保留 了 这 一 部 分 
如 此 一 章 。 本 书 第 3 版 新 作者 没有 为 孤立 的 本 章 另 起 一 个 部 分 ， 而 是 不 
恰当 地 把 它 编排 在 介绍 套 接 字 API 的 第 三 部 分 (高 级 套 接 字 编程 ) 

中 。 通 常 只 有 在 源 自 SVR4 的 内 核 上 套 接 字 API 才 会 和 X/Open 传输 接口 
API 一 样 使 用 流 系统 实现 。 一 一 译 者 注 


@ 这 个 错误 是 TPI 为 支持 XTI 而 引入 的 。 文 持 TLI 的 较 早 版 本 TPI 在 请 求 
捆绑 一 个 已 使 用 的 端口 时 将 另行 捆绑 一 个 未 使 用 的 端口 。 这 意味 着 捆 
绑 众 所 周知 端口 的 服务 器 将 不 得 不 比较 返回 的 地 址 〈 出 自由 第 三 个 参 
数 为 非 空 指针 的 t_bind 调 用 返回 的 T_bind_ack 消 息 ) 和 请 求 的 地 
址 ， 如 果 不 一 致 就 放弃 。 译 者 注 


附录 A IPv4 ^ IPv6 ` ICMPv44il 


ICMPv6 
A. 概述 


本 附录 给 出 IPv4、IPv6、ICMPv4 及 ICMPV6 的 概貌 。 这 些 材 料 所 
提供 的 额外 背景 知识 对 于 理解 第 2 章 中 有 关 TCP 和 UDP 的 讨论 会 有 所 帮 
助 。 高 级 侠 接 字 编 程 部 分 有 阁 干 章 也 使 用 了 IP 和 ICMP 的 某 些 特性 ， 例 
如 IP 选 项 (第 27 章 ) 以 及 ping 和 traceroute 程 序 (第 28 章 ) 。 


A2 ITPv4 首 部 


IP 层 提供 无 连接 不 可 靠 的 数据 报 递送 服务 (RFC 791 [Postel 
|) 。 它 会 尽 最 大 努力 把 卫 数 据 报 递送 到 指定 的 目的 地 ， 然 而 并 不 保 
证 它们 一 定 到 达 ， 也 不 保证 它们 的 到 达 顺 序 与 发 送 顺序 一 致 ， 还 不 保 
证 每 个 IP 数 据 报 只 到 达 一 次 。 任 何 期 望 的 可 靠 性 〈 即 无 差错 按 顺序 不 
重复 地 递送 用 户 数据 ) 必须 由 上 层 提 供 文 持 。 对 于 TCP (或 SCTP) 应 
用 程序 而 言 ， 这 由 TCP (或 SCTP) 本 号 完成 。 对 于 UDP 应 用 程序 而 
言 ， 这 得 由 应 用 程序 完成 ， 因 为 UDP 是 不 可 靠 的 ;我 们 在 22.5 节 给 
了 这 样 的 一 个 例子 。 


IP 层 最 重要 的 功能 之 一 是 路 由 (routing) 。 每 个 IP 数 据 报 包含 一 
个 源 地 址 和 一 个 目的 地 址 。 图 A-1 展 示 了 IPv4 数 据 报 首部 的 格式 。 
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图 A-1 IPv4 首 部 格式 


。4 位 版 本 (version) 字段 值 为 4。 这 是 自 20 世 纪 80 年 代 早 期 以 来 一 
直 在 使 用 的 卫 版 本 。 


。 首部 长 度 (header length) 字段 是 包括 任何 选项 在 内 的 整个 卫 首 部 
的 32 位 字 长 度 。 这 个 4 位 字段 的 最 大 取 值 为 15， 因 而 卫 首 部 的 最 大 
长 度 为 60 个 字 方 。 扣 除 首 部 固定 部 分 所 占据 的 20 字 节 外 ， 它 最 多 
允许 40 个 字 市 的 选项 。 | 
历史 性 的 8 位 服务 类 型 (type-of-service, TOS) 字段 (RFC 1349 
[Almquist 1992] ) 已 被 奉 换 为 两 个 字段 : 6 位 区 分 服务 码 点 
(Differentiated Services Code Point, DSCP, RFC 2474 [Nichols 
etal. 1998] ) 和 2 位 显 式 拥塞 通知 (Explicit Congestion 
Notification, ECN, RFC 3168 | Ramakrishnan, Floyd, and Black 
2001] ) 。 我 们 可 以 使 用 IP_TOS 套 接 字 选 项 设置 该 字段 (7.6 
a 虽然 内 核 可 能 覆盖 为 了 实施 Diffserv 策 略 或 实现 ECN 而 设置 
16 位 总 长 度 (total length) 字段 是 包括 IPv4 首 部 在 内 的 整个 了 数据 
报 的 字 蔬 长度。 数据 报 中 的 数据 量 葡 是 本 字段 减 掉 4 乘 以 百 部 长 度 
(回顾 一 下 ， 首 部 长 度 都 是 32 位 或 4 字 节 的 整数 倍 ) 。 本 字段 是 必 
需 的 ， 因 为 有 些 数据 链 路 要 求 把 帧 垫 补 成 某 个 最 小 长 度 (例如 以 
2 ， 因 而 有 效 IP 数 据 报 的 大 小 有 可 能 小 于 数据 链 路 的 最 小 长 


16 位 标识 (identification) 字段 由 IP 模 块 为 每 个 IP 数 据 报 设置 成 不 
同 的 值 ， 用 于 分 片 和 重组 (2.11 节 ) 。 该 字段 必须 就 源 IPv4 地 
址 、 目 的 IPv4 地 址 和 协议 这 三 个 字段 至 少 在 数据 报 的 网 络 存活 期 
9 唯一 标识 每 个 IP 数 据 报 。 如 果 分 组 不 会 被 分 片 (但 如 设置 了 DF 
fit) ， 那 么 就 不 需 设 置 此 字段 。 
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e DF (表示 don’*t fragment, PEDA) 位 、MF (表示 more 
fragments， 还 有 片段 ) 位 和 13 位 片段 偏 移 (fragment offset) 字段 
也 用 于 分 片 和 重组 。DF 位 还 用 于 路 径 MTU 发 现 (2.1177) ° 

e 8 位 存活 时 间 (time-to-live, TTL) 字段 由 本 IP 数 据 报 的 发 送 者 设 
置 ， 并 由 转发 它 的 每 个 路 由 器 递减 〈 即 减 去 1) 。 当 被 减 到 0 时 ， 
相应 路 由 丹 就 丢弃 该 数据 报 。 任 何 IP 数 据 报 的 生命 期 限定 为 最 多 
255 跳 。 本 字段 的 常用 默认 值 为 64， 不 过 我 们 可 以 使 用 套 接 字 选 项 
IP_TTL 和 IP_MULTICAST_TTL (7.6 节 ) 查询 和 修改 这 个 默认 
值 。 


8 位 协议 (protocol) 字段 指定 包含 在 本 IP 数 据 报 中 的 数据 类 型 。 
它 的 典型 值 有 1 (ICMPv4) ^2 (IGMPv4) ^6 (TCP) 和 17 
(UDP) 。 这 些 值 由 IANA 的 “Protocol Numbers” 注 册 处 [IANA | 
登记 并 提供 查询 。 

16 位 首部 检验 和 (header checksum) 字段 只 对 IP 首 部 (包括 任何 
选项 ) 进行 计算 。 其 算法 是 标准 的 网 际 网 校 验 和 算法 ， 即 简单 的 
16 位 反 人 码 加 法 (16-bit ones-complement addition) ， 如 图 28-15 所 


源 IPv4 地 址 (source IPv4 address) 和 目的 IPv4 地 址 (destination 
IPv4 address) 都 是 32 位 字段 。 

选项 (options) 字段 我 们 已 在 27.2 节 叙述 过 ， 并 在 27.3 节 给 出 了 一 
个 使 用 IPv4 源 路 径 选 项 的 例子 。 


A3 ”IPv6 首 部 


图 A-2 给 出 了 IPv6 首 部 的 格式 (RFC 2460 [Deering and Hinden 
1998| ) » 
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图 A-2 ”IPv6 首 部 格式 


e 4 位 版 本 (version) 字段 值 为 6°。 由 于 本 字段 占据 首部 第 一 个 字 市 
的 前 4 位 《就 如 图 A-1 给 出 的 IPv4 版 本 字段 ) ， 因 此 它 允 许 支 持 这 
两 个 版 本 的 接收 IP 协 议 栈 区 分 它们 。 不 过 由 于 IPv4 和 IPv6 因 互 不 
羔 容 而 被 视 为 不 同 的 协议 族 ， 封 狠 IPv4 或 IPv6 分 组 的 数据 链 路 帧 
( 璧 如 说 以 太 网 帧 ) 就 已 经 使 用 不 同 的 协议 族 字段 值 区 分 了 它 
们 ， 接 收 数 据 链 路 层 据 此 把 它们 递送 到 分 离 的 IPv4 模 块 或 ITPv6 模 


块 。 
20 世 纪 90 年 代 初 期 开发 ITPv6 时 ， 在 赋予 它 6 这 个 版 本 号 之 前 ， 该 协 


议 称 为 IPng， 表 示 “ 下 一 代 IP (IP next generation) ”。 你 可 能 仍然 
会 碰 到 IPng 这 个 称谓 。 
历史 性 的 8 位 流通 类 别 (traffic class) 字段 (RFC 2460) HE og 
换 为 两 个 字段 ，6 位 区 分 服务 码 点 (Differentiated Services Code 
Point, DSCP, RFC 2474 [Nichols et al. 1998] ) 和 2 位 显 式 拥塞 
通知 (Explicit Congestion Notification, ECN, RFC 3168 

| Ramakrishnan, Floyd, and Black 2001] ) 。 我 们 可 以 使 用 
IPV6_TCLASS 套 接 字 选项 设置 该 字段 (22.8 节 ) ， 虽 然 内 核 可 能 
履 盖 为 了 实施 Diffserv 策 略 或 实现 ECN 所 设置 的 值 。 
20 位 流标 签 (flow label) 字段 可 以 由 应 用 进程 或 内 核 为 某 个 给 定 
的 套 接 字 选 取 ， 应 用 于 通过 该 套 接 字 发 送 的 任何 IPv6 数 据 报 。 所 
谓 的 流 (flow) 指 的 是 从 某 个 特定 源头 到 某 个 特定 目的 地 的 一 个 
分 组 序列 ， 而 且 该 源头 期 望 中 间 的 路 由 絮 对 这 些 分 组 进行 特殊 处 
理 。 对 于 一 个 给 定 的 流 ， 其 流标 签 一 经 源头 选 定 就 不 再 改变 ， 也 
就 是 说 中 间 路 由 器 不 能 像 对 待 DSCP 和 ECN 字 段 那 样 重新 设置 本 字 
段 。 值 为 0 的 流标 签 (默认 设置 ) 标识 并 不 属于 任何 一 个 流 的 分 
组 [Rajahalme et al. 2003] 讲解 了 本 字段 尚 处 于 试验 之 中 的 用 


TR o 
流标 签 的 访问 接口 尚未 完全 定义 。sockaddr_in6 套 接 字 地 址 结 
构 的 sin6_ flowinfo 成 员 〈 图 3-4) 原初 是 为 留待 他 用 所 保留 
的 。 有 些 系统 直接 将 sin6_flowinfo 的 低 28 位 复制 到 IPv6 分 组 
首部 中 ， 来 覆盖 DSCP 和 ECN 字 段 。 

16 位 净 荷 长 度 (payload length) 字段 是 40 字 节 IPv6 首 部 之 后 所 有 
内 容 的 字 节 长 度 (可 能 出 现 的 扩展 首部 也 计算 在 内 ， 因 此 并 非 真 
TEA far BB ATR EWA CAKE) 。 本 字段 与 IPv4 总 
长 度 字段 的 区 别 在 于 后 者 把 IPv4 首 部 也 计算 在 内 。 本 字段 值 为 0 表 
示 实 际 长 度 超过 16 位 字段 的 表示 范围 〈 可 见 不 存 在 只 含有 IPv6 首 
部 的 IPv6 数 据 报 ) ， 于 是 存放 在 一 个 特大 净 傈 选项 中 (图 27- 

9) 。 这 样 的 数据 报 称 为 特大 报 (jumbogram) ° 

8 位 下 一 个 首部 (next header) 字段 类 似 于 IPv4 的 协议 字段 。 事 实 
上 如 果 上 层 协 议 基 本 上 无 变化 ，IPv6 和 IPv4 的 这 两 个 字段 就 使 用 
相同 的 值 ， 例 如 6 代表 TCP，17 代 表 UDP“。 从 ICMPv4 到 ICMPv6 的 
变化 却 比较 多 ， 以 至 于 后 者 被 赋 给 一 个 新 值 58。 

一 个 IPv6 数 据 报 可 以 在 其 40 字 市 的 IPv6 首 部 之 后 跟 以 多 个 首部 。 
这 就 是 之 所 以 称 本 字段 为 “下 一 个 前 部 ”而 非 “协议 ”的 原因 。 

8 位 跳 限 (hop limit) 字段 类 似 于 IPv4 的 TIL 字段 。 一 个 IPv6 分 组 
的 跳 限 字 上 段 值 由 转发 它 的 每 个 路 由 器 递减 EREL ， 如 果 某 个 


路 由 器 把 该 字段 值 减 成 0， 它 就 丢弃 该 分 组 。 我 们 可 以 使 用 套 接 字 
选项 TPV6_UNICAST_HOPS 和 IPV6_MULTICAST_HOPS 设 置 与 
获取 本 字段 的 默认 值 (7.8 节 和 21.6 节 ) ， 也 可 以 使 用 
IPV6_HOPLIMIT 套 接 字 选项 设置 本 字段 的 当前 值 ， 并 使 用 
IPV6_RECVHOPLIMIT 套 接 字 选项 获取 接收 数据 报 的 本 字段 值 。 
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IPv4 后 期 规范 要 求 路 由 闫 把 所 转发 ITPv4 分 组 的 TTL 字 段 值 或 者 减 
去 1， 或 者 减 去 路 由 右 存 储 该 分 组 的 秒 数 ， 具 体 取决 于 哪个 值 比较 大 。 
其 名 称 “ 存 活 时 间 ? 融 是 如 此 而 来 。 然 而 在 现实 中 该 字段 值 总 是 减 去 1。 
IPv6 要 求 它 的 跳 限 字段 总 古 减 去 1， 因 而 换 了 个 不 同 于 IPv4 的 名 称 。 


e 源 IPv6 地 址 (source IPv6 address) 和 目的 IPv6 地 址 (destination 
IPv6 address) 都 是 128 位 字段 。 


从 IPv4 到 IPv6 的 最 显著 变化 目 然 是 IPv6 采 用 更 大 的 地 址 字段 。 另 
一 个 变化 是 简化 IPv6 首 部 ， 因 为 首部 越 简单 ， 路 由 器 处 理 起 来 也 更 
快 。 这 两 种 首部 之 间 的 其 他 变化 还 有 以 下 几 点 。 


。 IPv6 没 有 首部 长 度 字 段 ， 因 为 IPv6 首 部 没有 选项 字段 。 固 定 为 40 
字 节 的 IPv6 首 部 之 后 可 跟 以 任意 种 类 和 数目 的 扩展 首部 ， 不 过 它 
们 都 有 各 目的 长 度 字段 。 
如 果 首 部 本 身 64 位 对 齐 ， 那 两 个 IPv6 地 址 字段 也 在 64 位 边界 对 
齐 。 这 样 可 以 加 快 在 64 位 体系 结构 上 的 处 理 。 而 IPv4 地 址 即使 在 
64 位 对 齐 的 IPv4 首 部 中 也 只 是 32 位 对 齐 的 。 
IPv6 首 部 没有 用 于 分 片 的 字段 ， 因 为 IPv6 另 有 一 个 独立 的 分 片 首 
部 用 于 该 目的 。 做 出 如 此 设计 决策 是 因为 分 片 属于 异常 情况 ， 而 
异常 情况 不 应 该 减 慢 正常 处 理 。 
IPvV6 首 部 没有 其 自身 的 校 验 和 字段 。 这 是 因为 所 有 上 层 协议 
(TCP、UDP 和 ICMPv6) 数据 单元 都 有 各 上 自 的 校 验 和 字段 ， 其 校 
验 范 围 包括 上 层 协议 首部 、 上 层 协 议 数据 及 IPv6 首 部 的 如 下 字 
Et. IPv6 源 地 址 、IPv6 目 的 地 址 、 净 答 长 度 和 下 一 个 首部 。 通 过 
从 IPv6 首 部 省 去 校 验 和 字段 ， 转 发 IPv6 分 组 的 路 由 器 不 必 在 修改 
跳 限 字段 值 之 后 重新 计算 首部 校 验 和 。 这 里 加 快 路 由 器 的 转发 速 
度 再 次 成 为 设计 的 关键 点 。 


- 我 们 另外 指出 从 IPv4 到 IPv6 的 以 下 重要 变更 ， 以 防 你 还 是 首次 接 
IPv6 ° 


。 IPv6 没 有 广播 (20H) 。 对 于 IPv4 是 可 选 的 多 播 (第 21 章 ) A 
是 IPv6 一 个 组 成 部 分 。 回 子 网 中 所 有 系统 发 送 数据 的 任务 是 由 全 
节点 多 播 组 处 理 的 。 

IPv6 路 由 器 不 对 所 转发 的 分 组 执行 分 片 。 如 果 不 经 分 片 无 法 转发 
某 个 分 组 ， 路 由 器 就 丢弃 该 分 组 ， 同 时 向 其 源头 发 送 一 个 ICMPV6 
E o 也 就 是 说 IPV6 的 分 片 只 发 生 在 IPv6 数 据 报 的 源头 
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。IPv6 要 求 支 持 路 径 MTU 发 现 功 能 (2.11 节 ) 。 从 技术 上 说 这 种 支 
持 是 可 选 的 ， 诸 如 自 举 引导 加 载 器 等 程序 中 的 最 小 实现 就 可 以 省 
略 这 种 支持 ， 然 而 如 果 某 个 节点 没有 实现 这 个 功能 ， 它 就 不 能 发 
送 超 过 IPv6 最 小 链 路 MTU (12805277) 的 数据 报 。22.9 节 讲解 了 
控制 路 径 MTU 发 现行 为 的 套 接 字 选项 。 

。IPVv6 要 求 支 持 认证 和 安全 选项 。 这 些 选 项 出 现在 固定 首部 之 后 。 


A.4 IPv4 地 址 


32 位 长 度 的 IPv4 地 址 通常 书写 成 以 点 号 分 隔 的 4 个 十 进 制 数 ， 称 为 
点 分 十 进 制 数 记 法 (dotted-decimal notation) ， 其 中 每 个 十 进 制 数 代表 
32 位 地 址 4 个 字 节 中 的 某 一 个 。 这 4 个 十 进 制 数 的 第 一 个 标识 地 址 类 
别 ， 如 图 A-3 所 示 。 历 史上 IPv4 地 址 曾 被 划分 成 5 类 ， 其 中 3 类 用 作 功 能 
等 同 的 单 播 地 址 ， 并 且 从 20 世 纪 90 年 代 中 期 开始 随 着 无 类 (classless) 
地 址 概念 的 提出 而 被 认为 不 再 存在 类 别 ， 因 而 作为 单个 范围 展示 。 


0.0.0.0 到 | 
224.0.0.0 到 | 
240.0.0.0 到 | 


223.255.255.255 
39.255.255.255 


- 


2 
2 
^ 


23 
247.255.255.255 


图 A-3 ”IPv4 地 址 5 个 类 别 的 范围 


无 论 在 何 时 谈 到 IPv4 网 络 或 子 网 地 址 ， 所 说 的 都 是 一 个 32 位 网 络 
地 址 和 一 个 相应 的 32 位 掩 码 。 掩 码 中 值 为 1 的 位 涵盖 网 络 地 址 部 分 ， 值 
为 0 的 位 涵盖 主机 地 址 部 分 。 既 然 掩 人 码 中 值 为 1 的 位 总 是 从 最 左 位 问 石 
连续 排列 ， 值 为 0 的 位 总 是 从 最 右 位 向 左 连 续 排 列 ， 因 此 地 址 掩 码 也 可 
以 使 用 表示 从 最 左 位 向 右 排列 的 值 为 1 的 连续 位 数 的 前 级 长度 (prefix 
length) 指定 。 举 例 来 说 ， 掩 码 是 255.255.255.0， 则 前 缀 长 度 为 24。 这 
些 IPv4 地 址 被 认为 是 无 类 的 ， 之 所 以 这 么 称呼 ， 是 因为 现在 掩 码 是 显 
式 指定 而 非 由 地 址 类 型 暗 指 的 。IPv4 网 络 地 址 通常 书写 成 一 个 点 分 十 
后 跟 一 个 斜 杜 ， 再 跟 以 前 级 长 度 。 图 1-16 展 示 了 这 样 的 例 


没有 一 个 RFC 排 除非 连续 子 网 掩 码 的 合法 性 ， 不 过 这 种 掩 码 容易 
造成 混 消 ， 也 没 法 以 前 组 记 法 表示 。 因 特 网 域 间 路 由 协议 BGP4 不 能 
示 非 连续 子 网 掩 码 °IPV6 同 样 要求 所 有 地 址 掩 码 从 最 左 位 开始 保持 连 


2x 


使 用 无 类 地 址 要 求 无 类 路 由 ， 它 通常 称 为 无 类 域 间 路 由 (classless 
interdomain routing, CIDR) (RFC 1519 [Fulleret al. 1993] ) 。 使 用 
CIDR 的 目的 在 于 减少 因特网 主干 路 由 表 的 大 小 ， 延 绥 IPv4 地 址 耗 尽 的 
速率 。CIDR 中 每 个 路 径 必 须 伴 以 一 个 掩 码 或 前缀 长 度 。 地 址 类 型 不 再 
暗含 掩 码 。TCPv1 的 10.8 节 更 详细 地 讨论 CIDR 。 
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A.4.1 子 网 地 址 


IPv4 地 址 通常 划分 子 网 (RFC 950 [Mogul and Postel 1985] ) 
这 么 做 增加 了 另外 一 级 地 址 层次 : 


。 网 络 ID 〈 分 配给 网 点 ) ; 
。 子 网 ID (由 网 点 选择 ) ; 
。 主机 ID (由 网 点 选择 ) 


网 络 ID 和 子 网 ID 之 间 的 界线 由 所 分 配 网 络 地 址 的 前 绥 长 度 确定 ， 
而 这 个 前 绥 长 度 通 带 由 相应 组 织 机 构 的 ISP 赋 了 予 。 然 而 子 网 ID 和 主机 
ID 之 间 的 界线 却 由 网 点 选择 。 某 个 给 定子 网 上 所 有 主机 都 共享 同一 个 
子 网 掩 码 (subnet mask) ， 它 指定 子 网 ID 和 主机 ID 之 间 的 界线 。 子 网 
掩 码 中 值 为 1 的 位 泗 盖 网 络 ID 和 子 网 ID， 值 为 0 的 位 则 涵盖 主机 ID。 


作为 一 个 例子 ， 考 虑 某 个 网 点 被 它 的 ISP 赋 予 一 个 私 用 网 络 地 址 
192.168.42.0/24。 这 个 网 点 随后 把 剩余 8 位 划分 成 3 位 子 网 ID 和 5 位 主机 
ID， 如 图 A-4 所 示 。 


| Ep sr Bi: PT 山 
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图 A-4 ”24 位 网 络 ID 伴 以 3 位 子 网 ID 和 5 位 主机 ID 


图 A-5 列 出 了 如 此 划分 形成 的 所 有 子 网 。2 


© 


192.168.42.0/27 
192.168.42.32/27 
192.168.42.64/27 
192.168.42.96/27 
192.168.42.128/27 
192.168.42.160/27 
192.168.42.192/27 
192.168.42.224/27 


] 
2 
3 
4 
5 
0 


图 A-5 ”3 位 子 网 ID 和 5 位 主机 ID 的 子 网 列表 
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如 此 划分 形成 6 至 8 个 子 网 〈 子 网 ID 为 1~6 或 0~7) ， 每 个 子 网 支持 
30 个 主机 (主机 ID 为 1~30); ° RFC 950 建 议 不 要 使 用 子 网 ID 各 位 全 为 0 
或 全 为 1 的 那 两 个 子 网 〈 本 例子 为 子 网 ID 分 别 为 0 和 7 的 子 网 ) ， 不 过 
如 今 大 多 数 系统 支持 这 两 种 格式 的 子 网 ID 。 主 机 ID 各 位 全 为 1 的 地 址 
(本 例子 的 主机 ID 为 31) 是 相应 子 网 的 定向 广播 地 址 (20.277) ° € 
机 ID 各 位 全 为 0 的 地 址 用 于 标识 相应 子 哆 ， 同 时 避免 与 把 0 值 主 机 ID 用 
作 子 网 定向 广播 地 址 的 较 旧 系统 发 生 冲 突 。 然 而 如 果 能 够 保 准 子 网 上 
不 存在 这 样 的 系统 ， 那 么 使 用 0 值 主机 ID 标 识 一 个 主机 也 是 可 能 的 。 
总 的 来 讲 ， 网 络 程 序 无 需 关 心 子 网 或 主机 ID 的 指定 ， 而 应 该 将 IP 地 址 
视 作 不 透明 的 值 。 


A.4.2 环 回 地 址 


按照 约定 ， 地 址 127.0.0.1 赋 予 环 回 接 口 。 任 何 发 送 到 这 个 IP 地 址 
的 分 组 在 内 部 被 环 送 回来 作为 IP 模 块 的 输入 ， 因 而 这 些 分 组 根本 不 会 
出 现在 网 络 上 。 我 们 在 同一 个 主机 上 测试 客户 和 服务 器 程序 时 经 常 使 
用 该 地 址 。 该 地 址 通常 为 人 所 知 的 名 字 是 INADDR_LOOPBACK。 


网 络 127.0.0.0/8 上 任何 地 址 都 可 以 赋予 环 回 接口 ， 但 是 127.0.0.1 是 
其 中 最 常用 的 ， 往 往 由 系统 自动 配置 。 


A.4.3 ”未 指明 地 址 


所 有 32 位 均 为 0 的 地 址 是 IPv4 的 未 指明 地 址 (unspecified 
address) 。 这 个 IP 地 址 只 能 作为 源 地 址 出 现在 IPv4 分 组 中 ， 而 且 是 在 
其 发 送 主机 处 于 获悉 自身 IP 地 址 之 前 的 自 举 引导 过 程 期 间 。 在 套 接 字 
API 中 该 地 址 称 为 通 配 地 址 ， 其 通常 为 人 所 知 的 名 字 是 
INADDR_ANY。 在 套 接 字 API 中 绑 定 该 地 址 (例如 为 了 监听 某 套 接 
F) 表示 会 接受 目的 地 为 任何 节点 的 IPv4 地 址 的 客户 连接 。 


A.4.4 私 用 地 址 


RFC 1918 [Rekhter et al. 1996] 留置 了 若干 段 地 址 范围 供 “ 私 用 网 
际 网 ” (private internets) 使 用 ， 这 些 网 络 不 能 直接 接 入 到 公用 因特网 
中 ， 除 非 中 间 介 以 NAT 或 代理 设备 。 这 些 地 址 范围 如 图 A-6 所 示 。 


Hh A 
16 777 216 10/8 10.0.0.0$110.255.255.255 
1 048 576 172.16/12 172.160.0349, 172.31.255.255 
65 536 192.168/16 192.168.0.0 到 192 168.255.255 


图 A-6 私 用 IPv4 地 址 范围 

这 些 地 址 绝 不 能 出 现在 因特网 上 ， 它 们 是 为 私 用 网 络 保 留 的 。 许 
多 小 规模 网 点 结合 NAT 技 术 使 用 这 些 私 用 地 址 ， 在 一 个 或 多 个 因特网 
上 可 用 的 公用 IP 地 址 和 所 用 私 用 地 址 之 间 进 行 地 址 转换 。 
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A45 ”多 和 窒 与 地 址 别名 


多 宿主 机 (multihomed host) 的 传统 定义 是 具有 多 个 接口 的 主 
机 :例如 两 个 以 太 网 链 路 或 者 一 个 以 太 网 链 路 加 一 个 点 到 点 链 路 。 
个 接口 必须 有 一 个 唯一 的 了 Pv4 地 址 。 计 量 一 个 主机 的 接口 数 是 否 超过 
一 个 以 确定 它 是 否 多 答 时 ， 环 回 接口 不 计 在 内 。 


路 由 器 按 定 义 是 多 和 窒 的 ， 因 为 它 把 到 达 某 个 接口 的 分 组 转发 到 男 
一 个 接口 。 然 而 多 窒 主 机 却 不 必 一 定 是 路 由 器 ， 除 非 它们 转发 分 组 。 
事实 上 一 个 多 御 主 机 不 应 该 仅仅 因为 拥有 多 个 接口 而 目 我 认定 是 一 个 
路 由 器 ; 除非 已 被 配置 成 作为 路 由 器 〈 典 型 手段 是 由 系统 管理 员 开 局 
某 个 配置 选项 ) ， 否 则 它 绝 不 能 扮演 这 个 角色 。 


然而 多 宿 (multihoming) 这 个 说 法 现 已 变 得 更 为 一 般 化 ， 包 括 两 
种 不 同情 形 (RFC 1122 [Braden 1989] 的 节 ) 


。 拥有 多 个 接口 的 主机 是 多 笨 的 ， 每 个 接口 必须 有 各 目的 下地 址 ， 
不 过 未 指定 网 络 地 址 的 (unnumbered) 接口 允许 出 现在 点 到 点 链 
路 上 。 这 是 传统 的 定义 。 

。 较 新 的 主机 具备 把 多 个 IP 地 址 赋予 单个 给 定 物理 接口 的 能 力 。 除 
第 一 个 IP 地 址 即 主 地 址 外 的 每 个 额外 IP 地 址 称 为 该 接口 的 一 个 别 
名 (alias) 地 址 或 逻辑 接口 (logical interface) 地 址 。 通 常 别 名 地 
址 和 主 地 址 共享 同一 个 子 网 地 址 ， 只 是 主机 ID 不 同 而 已 。 不 过 别 
名 地 址 也 可 能 具有 完全 不 同 于 主 地 址 的 网 络 地 址 或 子 网 地 址 。 我 
们 在 17.6 节 给 出 了 一 个 别名 地 址 的 例子 。 


可 见 多 宿主 机 的 定义 是 具有 多 个 IP 层 可 见 接口 (扣除 回馈 接口 ) 
的 主机 ， 至 于 这 些 接口 是 物理 的 还 是 逻辑 的 则 不 必 关 心 。 


给 予 网 络 负 和 奏 极 融 的 某 个 服务 占 主 机 到 同一 个 以 太 网 交换 机 的 多 
个 物理 连接 ， 并 把 这 些 连 接 汇 案 成 一 个 更 高 囊 宽 的 逻辑 连接 ， 这 种 做 
法 并 不 鲜 见 。 这 样 的 主机 不 能 因为 拥有 多 个 物理 接口 而 被 认为 是 多 窒 
的 ， 因 为 在 IP 层 看 来 它们 是 单个 逻辑 接口 。 


多 答 也 用 于 为 一 个 上 下 文中 。 有 多 个 连接 通达 因特网 的 网 络 也 称 
为 多 牲 的 。 举 例 来 说， 有 些 网 点 有 两 个 而 非 一 个 通达 因特网 的 连接 ， 
以 此 提供 因特网 接 入 的 备份 能 力 。SCTP 传 输 协 议 能 从 多 重 连接 (通过 
联系 多 答 网 点 ) PIR c 


A.5 ”IPv6 地 址 


IPv6 地 址 有 128 位 ， 通 常 书写 成 以 冒号 分 隔 的 8 个 16 位 值 的 十 六 进 
制 数 。IPv6 地 址 的 128 位 地 址 的 高 序 位 隐 含 地 址 类 型 (RFC 3513 
| Hinden and Deering 2003] ) 。 图 A-7 给 出 了 高 序 位 不 同 取 值 与 所 隐 
含 地 址 类 型 的 关系 。 有 
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Ja HE ap Ae 3 L1 a A 
AE iy Til 2603 0030 .. 0000 cons (128% RFC 3513 
yx mls 不适 用 2002 0020 .0605 2021 (128%) | RFC 3513 


Ak PJE 任意 大 小 ^00 UC 3513 
全 球 基 二 NSAP 的 地 址 任意 大 小 ICOLA RTC 1888 


ND Se RE a c EID u RFC 3587 
TER {ue 地 15 ay vw (36 x = ` RFC 2443 
EDA EC de Ha ie 

[ei ox RM iE Ha Hr 


名 播 地 址 不 还 用 TLL RFC 3513 


图 A-7 ”IPv6 地 址 中 高 序 位 的 含义 


这 些 高 序 位 称 为 格式 前 缀 (format prefix) 。 其 中 高 序 8 位 是 
00000000 的 保留 地 址 范围 中 已 经 定义 未 指明 地 址 (unspecified 
address) 、 环 回 地 址 (loopback address) 和 散 入 IPv4 地 址 的 IPv6 地 
址 ， 后 者 包括 IPv4 兼 容 的 IPv6 地 址 (IPv4-compatible IPv6 address) 和 
IPv4 映 射 的 IPv6 地 址 (IPv4-mapped IPv6 address) ， 具 体 稍 后 讨论 。 


A.5.1 ”全球 单 播 地 址 


按照 RFC 3513， 未 指明 地 址 、 环 回 地 址 、 链 接 局 部 单 播 地 址 
(link-local unicast address) 、 网 点 局 部 单 播 地 址 (site-local unicast 
address) 和 多 播 地 址 以 外 的 所 有 IPv6 地 址 都 是 全 球 (或 全 局 ) 单 播 地 
HE (global unicast address) ， 不 过 当前 全 球 单 播 地 址 空间 的 分 配 限 制 
在 以 901 打头 的 地 址 范围 ， 其 余地 址 空间 留待 将 来 分 配 。 全 球 单 播 地 


址 的 一 般 格式 是 可 汇聚 的 ， 从 最 左 位 开始 往 右 包含 以 下 各 个 字段 ， 并 
如 图 A-8 所 示 : 

。 全 球 路 由 前 缀 (n 位 ) ; 

e FID 〈64-n 位 ) ; 

。 接口 ID (64 位 ) ° 


图 A-8 ”IPv6 全 球 单 播 地 址 一 般 格式 
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全 球 路 由 前 级 是 赋予 某 个 网 点 的 网 络 标识 (通常 具有 层次 结 
H) ， 子 网 ID 是 该 网 点 内 某 个 链 路 的 标识 ， 接 口 ID 是 该 链 路 上 某 个 接 
口 的 标识 。 以 000 打 头 地 址 范围 之 外 的 所 有 全 球 单 播 地 址 都 有 一 个 64 
位 的 接口 ID 字段 。 接 口 ID 必须 按照 经 修正 的 IEEE EUI-64 格 式 构造 。 
IEEE EUI-64 |IEEE 1997| 是 赋予 大 多 数 LAN 接 口 卡 的 48 位 IEEE 802 
MAC 地 址 的 一 个 超 集 ， 修 正 它 们 的 目的 仅仅 是 略微 方便 系统 管理 员 在 
硬件 接口 地 址 不 可 得 情况 下 (例如 点 到 点 链 路 或 隧道 端点 ) 手工 配置 
非 全 球 ID 而 已 。 要 是 可 能 的 话 ，IPv6 应 该 基于 一 个 接口 的 硬件 MAC 地 
址 自动 赋予 它 一 个 接口 ID。 构 造 基 于 经 修正 EUI-64 的 接口 ID 的 细节 详 
见 RFC 3513 [Hinden and Deering 2003] 附录 A。 注 意 ， 以 000 打 头 地 
址 范围 之 内 的 全 球 单 播 地 址 〈 例 如 IPv4 兼 容 的 IPv6 地 址 和 IPv4 映 射 的 
IPv6 地 址 ) 没有 接口 ID 字段 在 大 小 或 结构 上 的 如 此 限制 。 


既然 一 个 经 修正 IEEE EUI-64 可 以 是 某 个 给 定 接口 的 全 球 唯一 标 
识 ， 而 一 个 接口 也 可 以 标识 一 个 用 户 ， 经 修正 的 IEEE EUI-64 格 式 于 是 
唤起 所 请 的 隐私 性 考虑 。 举 例 来 说 ， 通 过 追踪 某 个 给 定 用 户 所 携带 的 
笔记 本 电脑 产生 的 IPv6 地 址 中 髓 入 的 EUI-64 值 ， 该 用 户 的 行为 和 运动 
有 可 能 被 掌握 。RFC 3041 |Narten and Draves 2001| 讲解 了 接口 ID 的 
隐私 性 扩展 ， 它 能 够 每 天 数 次 变更 接口 ID 以 避免 暴露 隐私 。 


A.5.2 ”6bone 测 试 地 址 


6bone 是 一 个 用 于 早期 IPv6 协 议 测 试 的 虚拟 网 络 (B.S 77) 。 以 
001 打头 的 那 部 分 全 球 单 播 地 址 范围 开始 分 配 之 后 ，6bone 吕 按照 使 用 
其 中 某 个 特殊 格式 的 原 定 计划 把 以 90x5f 打 头 的 临时 性 6bone 地 址 更 换 
成 了 以 0x3ffe 打 头 的 永久 性 6bone 地 址 (RFC 2471 |Hinden, Fink, and 
Postel 1998] ) ， 如 图 A-9 所 示 。 


~ mm 未 点 TD {ID EE 
3 161" 


图 A-9 用 于 6bone 的 IPv6 测 试 地 址 


6bone 地 址 的 高 序 两 字 节 是 0x3ffe。32 位 的 6bone 网 点 ID 由 6bone 
行动 主席 (the chair of the6bone activity) 赋予 每 个 加 入 站 点 ， 意 在 体 
现 现 实 环境 中 IPv6 地 址 如 何 分 配 。6bone 行 动 正在 下 马 之 中 [Fink and 
Hinden 2003] ， 因 为 IPv6 生 产 性 部 署 业已 起 步 (2002 年 分 配 的 生产 性 
地 址 量 超过 6bone 在 8 年 内 分 配 的 地 址 量 ) 。 子 网 ID 和 接口 ID 如 同 全 球 
单 播 地 址 格式 ， 分 别 用 于 标识 子 网 和 接口 。 


我 们 在 11.2 节 展示 了 图 1-16 中 名 为 freebsd 的 主机 的 IPv6 地 址 为 
3ffe:b80:8d:1:a00: 20ff:fea7:686b。 其 中 6bone 网 点 ID 是 
9x9b801f8d， 子 网 ID 是 0x1。 低 序 64 位 是 该 主机 以 太 网 卡 MAC 地 址 
的 经 修正 IEEE EUI-64 值 ° 


A.5.3”IPv4 映 射 的 IPv6 地 址 


IPv4 映 里 的 IPv6 地 址 允许 在 因特网 癌 IPv6 过 渡 时 期 让 运行 在 同时 
支持 IPv4 和 IPv6 的 主机 上 的 IPv6 应 用 进程 能 够 与 只 支持 IPv4 的 主机 通 
信 。 这 些 地 址 是 在 IPv6 应 用 进程 查询 某 个 只 有 IPv4 地 址 的 主机 的 IPv6 
地 址 时 由 DNS 解 析 器 自动 创建 的 (图 11-8) ° 
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我 们 从 图 12-4 看 到 在 IPv6 套 接 字 上 使 用 这 种 类 型 的 地 址 导致 往 目 


的 地 IPv4 主 机 发 送 IPv4 数 据 报 。 这 些 地 址 并 不 保存 在 任何 DNS 数据 文 
件 中 ， 它 们 古 由 解析 器 按 需 创建 的 。 


图 A-10 展 示 了 IPv4 映 射 的 IPv6 地 址 的 格式 。 低 序 32 位 含有 一 个 
IPv4 地 址 o 


IPSE 


ROT 


RIA-10 IPv4BX AT RJIPvedt E 


书写 IPv6 地 址 时 ， 值 为 0 的 连续 数 串 可 以 简写 成 两 个 冒号 。 另 外， 
骨 在 其 中 的 IPv4 地 址 使 用 点 分 十 进 制 数 记 法 书写 。 举 例 来 说 ， 我 们 可 
以 把 IPv4 映 射 的 IPv6 地 址 0:0:0:0:0:FFFF:12.106.32.254 简 写 
成 : :FFFF:12.106.32.254。 


A.5.4 IPv4 兼 容 的 IPv6 地 址 


IPv4 兼 容 的 IPv6 地 址 也 用 于 从 IPv4 到 IPv6 的 过 渡 时 期 (REC 2893 
| Gilligan and Nordmark 2000] ) 。 如 果 一 个 同时 支持 IPv4 和 IPv6 的 主 
机 没有 邻居 IPv6 路 由 器 ， 那 么 它 的 系统 管理 员 应 该 创建 一 个 含有 IPv4 
兼容 的 IPv6 地 址 的 DNS AAAA 记 录 。 有 待 往 这 个 兼容 地 址 发 送 IPv6 数 
据 报 的 任何 其 他 IPv6 主 机 将 先 为 这 些 IPv6 数 据 报 封装 一 个 IPv4 首 部 再 
发 送 ， 这 种 发 送 方式 称 为 自动 隧道 (automatic tunnel) 。 然 而 IPv6 部 
署 上 的 一 些 考虑 却 削弱 了 这 种 地 址 的 如 此 用 途 。 我 们 将 在 B.3 节 讨论 隧 
= (tunneling) ， 并 在 图 B-2 中 给 出 在 一 个 IPv4 数 据 报 中 封装 一 个 IPv6 
数据 报 的 例子 。 需 注意 的 是 ，6bone 上 的 每 个 隧道 都 是 经 配置 的 隧道 
(configured tunnel) ， 壁 如 说 由 系统 管理 员 通 过 某 个 启动 文件 预先 配 
置 ， 然 而 对 于 IPv4 兼 容 的 IPv6 地 址 ， 只 有 地 址 需要 手工 配置 (例如 作 
为 一 个 AAAA 记 录 置 于 某 个 DNS 数据 文件 中 ) , BREE (也 就 是 隧道 形 
成 ) 则 是 自动 的 。 


图 A-11 展 示 了 IPv4 兼 容 的 IPv6 地 址 的 格式 。 这 种 类 型 地 址 的 一 个 
例子 是 : :12 .106.32.254。 


| - ER cm 2 € . ood | ^00 IPv4 Hir | 
| 


sof 16 


图 A-11 IPv4 兼 容 的 IPv6 地 址 


当 使 用 SIIT IPv4/IPv6 过 渡 机 制 (RFC 2765 [Nordmark 2000] ) 
0 以 作为 非 障 穿 IPv6 分 组 的 源 地 址 或 目的 


A.5.5” 环 回 地 址 


由 127 个 值 为 0 位 后 跟 单 个 值 为 1 位 构成 的 IPv6 地 址 (书写 成 : :1) 
是 IPv6 的 环 回 地 址 。 在 套 接 字 API 中 ， 环 回 地址 为 人 所 知 的 名 字 是 
in6addr loopbackEXINGADDR LOOPBACK INIT ° 
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A.5.6 ”未 指明 地 址 


所 有 128 位 值 均 为 0 的 IPv6 地 址 (书写 成 9: :0 或 干脆 ; :) 是 IPV6 的 
未 指明 地 址 。 这 个 地 址 在 IPv6 分 组 中 只 能 作为 源 地 址 出 现 ， 而 且 是 在 
其 发 送 主机 处 于 获悉 自身 IP 地 址 之 前 的 自 举 引导 过 程 期 间 。 


在 套 接 字 API 中 该 地 址 称 为 通 配 地 址 ， 其 为 人 所 知 的 名 字 是 
in6addr_any 或 IN6ADDR__ANY_INIT。 通 过 绑 定 该 地 址 的 套 接 字 
发 送 IPv6 分 组 时 ， 内 核 会 选择 一 个 本 地 地 址 作为 源 地 址 ， 除 非 尚未 配 
置 任何 本 地 地 址 《这 种 情况 下 藉以 未 指明 地 址 为 源 地 址 ) ; 通过 绑 定 
这 个 地 址 的 套 接 字 接收 IPv6 分 组 时 ， 内 核 把 没 法 递送 到 绑 定 更 明确 地 
址 之 套 接 字 的 接收 IPv6 分 组 递送 到 这 个 通 配 套 接 字 。 


A.5.7 链 路 局 部 地 址 


链 路 局 部 地 址 用 在 单个 链 路 上 ， 并 且 是 在 已 知 数据 报 不 会 被 转发 
的 前 提 下 。 这 种 地 址 的 使 用 例子 包括 目 举 引导 阶段 的 目 动 地 址 配置 和 
~ (类 似 IPv4 的 ARP) 。 图 A-12 展 示 了 这 些 地 址 的 格 
ae 


图 A-12 ”IPV6 链 路 局 部 地 址 


这 些 地 址 总 是 以 0xfe80 打 头 。IPv6 路 由 器 绝 不 能 把 源 地 址 或 目的 
地 址 为 链 路 局 部 地 址 的 数据 报 转 发 到 其 他 链 路 。 我 们 在 11.2 市 给 出 了 
与 名 字 aix_611 相 关联 的 链 路 局 部 地 址 。 


A.5.8 网 点 局 部 地 址 


在 本 书写 至 此 处 时 ，IETF 的 IPv6 工 作 组 已 决定 废弃 当前 形式 的 网 
点 局 部 地 址 。 即 将 来 临 的 奉 换 品 使 用 还 是 不 使 用 原初 为 网 点 局 部 地 址 
定义 的 地 址 范围 (feco/10) 尚未 知晓 。 这 种 地 址 本 打算 用 于 某 个 网 
PE i 
Y L o 


图 A-13 ”IPv6 网 点 局 部 地 址 


这 些 地 址 总 是 以 0xfec0 开 头 。IPv6 路 由 器 绝 不 能 把 源 地 址 或 目的 
地 址 为 网 点 局 部 地 址 的 数据 报 转发 到 所 在 网 点 以 外 。 
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A.6 ICMPv4 和 ICMPv6: 网 际 网 控制 消 
息 协 议 


ICMP 是 任何 IPv4 或 IPv6 实 现 都 必需 的 有 机 组 成 部 分 。 它 通常 用 于 
在 了 节点 〈 即 路 由 器 和 主机 ) 之 间 互 通 出 错 消 息 或 信息 性 消息 ， 

应 用 程序 偶尔 也 会 使 用 它们 获取 信息 性 消息 或 出 错 消 息 ， 例 如 ping 
traceroute 程 序 (第 28 章 ) 都 使 用 ICMP。 


ICMPv4 和 ICMPvV6 消 息 的 前 32 位 是 相同 的 ， 如 图 A-14 所 示 。RFC 
792 [Postel 1981b] 讲述 了 ICMPv4，RFC2463 [Conta and Deering 
1998] 讲述 了 ICMPv6 ° 


8 位 类 型 (type) 字段 是 ICMPv4 或 ICMPv6 消 息 的 类 型 ， 有 些 类 型 
有 一 个 8 位 代码 (code) 字段 提供 额外 信息 。 校 验 和 (checksum) 字段 
是 标准 的 网 际 网 检验 和 ， 不 过 在 具体 校 验 哪些 字段 上 ICMPv4 和 
ICMPv6 存 在 差异 : ICMPv4 检 验 和 仪 仅 校 验 ICMP 消 恩 本 映 ，ICMPvV6 
检验 和 的 校 验 范围 还 包括 IPv6 伪 站 部 。 


I G E 


| 


/ CHR r WA PEA ICMP v4 
] * Y MPiii =) 


图 A-14 ICMPv4 和 ICMPv6 消 息 的 格式 


从 网 络 编程 角度 看 ， 我 们 需要 知道 哪些 ICMP 消 息 能 够 返 送 到 应 用 
进程 ， 哪 些 条 件 导 致 出 错 以 及 这 些 出 错 消息 如 何 返 送 到 应 用 进程 。 
A-15 列 出 了 所 有 的 ICMPv4 消 息 以 及 FreeBSD 对 它们 的 处 理 ， 图 A-16 则 
列 出 了 ICMPv6 消 息 。 倒数 第 二 栏 指 出 导致 加 发送 主机 返 送 ICMP 出 错 
消息 的 IP 数 据 报 发 送 操作 返回 给 调用 进程 的 errno 变 量 值 。 对 于 TCP 
应 用 进程 ， 这 些 错误 只 是 在 TCP 最 终 放 弃 重 传 党 试 时 才 返 回 。 对 于 使 


用 已 连接 套 接 字 的 UDP 应 用 进程 ， 这 些 错 误 由 下 次 发 送 或 接手 操作 返 
[|], 但 在 使 用 已 连接 套 接 字 时 是 个 例外 Cug.9 Tm Pr) 。 
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图 A-15 FreeBSD 对 ICMPv4 消 息 类 型 的 处 理 
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图 A-16 ICMPv6 消 息 


其 中 端口 不 可 达 (对 于 ICMPV4 类 型 为 3 代码 为 3， 对 于 ICMPv6 类 
型 为 1 代码 为 4) 仅 用 于 自身 无 法 通告 对 端 某 个 端口 上 无 进程 在 监听 的 
传输 协议 。TCP 为 此 发 送 RST 分 节 ， 因 而 不 需要 这 个 ICMP 出 错 消息 。 
作为 路 由 器 运作 ( 即 转发 分 组 ， 的 系统 忽略 重 定 问 (对 于 ICMPV4 类 型 
为 5， 对 于 ICMPv6 类 型 为 137) 。 


记号 “用 户 进程 ”意味 着 内 核 不 处 理 这 样 的 消 妃 ， 它 们 由 打开 原始 
套 接 字 的 用 卢 进 程 处 理 。 我 们 还 得 注意 不 同 的 实现 对 于 特定 的 消 轧 可 
能 有 不 同 的 处 理 。 Gad RUE Unix ACE E TE HI Pee Ph 
由 器 征求 与 路 由 需 通 告 ， 其 他 实现 却 有 可 能 在 内 核 中 处 理 这 些 消 息 。 


ICMPv6 为 出 错 消 息 〈 类 型 1~4) 清除 类 型 字段 的 高 序 位 ， 并 为 信 
息 性 消息 设置 该 位 。 
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@@ 类 似 TCP 的 最 大 分 节 生 命 期 MSL 概 念 ， 不 过 一 个 IP 数 据 报 被 分 片 成 
多 个 分 组 之 后 ， 每 个 分 组 各 上 自 有 网 络 存 活期 ， 整 个 IP 数 据 报 的 网 络 存 
活期 可 视 为 各 个 分 组 网 络 存活 期 之 和 。 一 一 译 者 注 


@ 这 些 地 址 的 子 网 掩 码 是 0xffffffe0 或 255.255.255.224。 整 个 网 络 地 址 
(192.168.42.0/24) 和 各 个 子 网 地 址 (例如 192.168.42.32/27) 使 用 同 
样 的 前 级 表 示 记 法 。 


@ 图 A-7 既 不 完备 义 存 在 不 少 说 误 ， 译 者 根据 RFC 3513 和 Stevens 先 生 
在 第 2 版 中 给 出 的 图 修订 为 下 面 的 图 A-7A 。 译 者 注 
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RIA-7A ”IPv6 地 址 中 高 序 位 的 含义 (修订 ) 


附录 B ”虚拟 网 络 


B.1 概述 


往 TCP 中 加 入 一 个 新 特性 时 ， 对 于 该 特性 的 支持 只 需 在 使 用 TCP 
的 主机 上 实现 ， 路 由 器 则 无 需 改 动 。 举 例 来 说 ， 在 RFC 1323 中 定义 的 
长 胖 管道 支持 就 是 这 样 的 一 个 特性 ， 它 要 求 的 变动 正在 缓慢 地 出 现在 
TCP 的 主机 实现 中 ， 当 建立 一 个 新 的 TCP 连 接 时 ， 每 端 都 可 能 判定 对 
D ee ee a ae A ce eee 


X — AAP IP Pr, Bea 20 A 805F CR BU TB 
和 90 年 代 中 的 IPv6， 因 为 这 些 新 特性 要 求 所 有 主机 和 所 有 路 由 器 都 进 
行 改动 。 然 而 人 们 不 愿意 等 到 所 有 系统 都 升 完 级 才 开 始 使 用 这 些 新 特 
性 。 为 此 ， 人 们 使 用 隧道 (tunnel) 在 已 有 的 IPv4 因 特 网 上 建立 虚拟 网 


Z& (virtual network) ° 


B.2 MBone 


我 们 使 用 隧道 构造 的 第 一 个 虚拟 网 络 例子 是 MBone， 它 起 始 于 
1992 年 前 后 [Eriksson 1994] 。 如 果 一 个 LAN 上 有 2 个 或 多 个 主机 支持 
多 播 ， 多 播 应 用 系统 就 可 以 运行 在 所 有 这 些 主机 上 并 彼此 通信 。 为 了 
把 这 样 的 LAN 连 接 到 男 外 一 个 同样 有 主机 支持 多 播 的 LAN 上 ， 这 两 个 
LAN 中 需 各 有 一 个 主机 相互 之 间 配 置 出 一 个 隧道 ， 如 图 B-1 所 示 。 我 
们 在 该 图 中 用 数字 标 出 了 如 下 的 步骤 。 
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图 B-1 MBone 上 使 用 的 IPv4 套 IPv4 封 装 
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产 主机 MH1 上 的 某 个 应 用 进程 向 一 个 D 类 地 址 发 送 一 个 多 播 
x í 


(2) 我 们 把 它 展 示 成 一 个 UDP 数据 报 ， 因 为 大 多 数 多 播 应 用 程序 
都 使 用 UDP。 我 们 已 在 第 21 章 较 具 体 地 讨论 过 多 播 以 及 如 何 发 送 和 接 
收 多 播 数 据 报 。 


(3) 该 数据 报 由 本 LAN 上 所 有 支持 多 播 的 主机 接收 ， 其 中 包括 
MR2。 我 们 把 MR2 标 注 成 也 用 作 多 播 路 由 絮 ， 运 行 着 执行 多 播 路 由 功 
能 的 mrouted 程 序 。 


(4) MR2 在 该 数据 报 之 前 冠 以 另 一 个 IPv4 首 部 ， 并 把 这 个 新 首部 
的 目的 IPv4 地 址 设置 成 隧道 端点 (tunnel endpoint) MR5 的 单 播 地 址 。 
这 个 单 播 地 址 是 由 MR2 的 系统 管理 员 配 置 并 由 mrouted 程 序 在 启动 阶 
段 读 入 的 。 类 似 地 ， 在 隧道 对 端的 MR5 上 也 配置 了 MR2 的 单 播 地 址 。 
新 的 IPv4 首 部 的 协议 字段 被 设置 成 4， 代 表 IPv4 套 IPv4 (IPv4-in-IPv4) 
封装 。MR2 然 后 把 该 数据 报 发 送 给 下 一 跳 路 由 器 UR3， 它 被 明确 地 标 
注 成 一 个 单 播 路 由 器 。 也 就 是 说 UR3 不 理解 多 播 ， 这 正 是 我 们 使 用 隧 
道 的 原因 。 新 的 IPv4 数 据 报 的 阴影 部 分 相 比 步骤 1 所 发 送 的 数据 报 除了 
所 封装 IPv4 首 部 的 TIL 字段 递减 外 没有 其 他 变化 。 


(5) UR3 查 找 最 外 层 IPv4 首 部 中 的 目的 IPv4 地 址 ， 然 后 把 该 数据 
报 转发 给 下 一 跳 路 由 器 UR4， 它 是 另外 一 个 单 播 路 由 器 。 


(6) UR4 把 该 数据 报 递送 到 它 的 目的 地 MR5， 它 是 隧道 端点 之 


(7) MR5 接 收 该 数据 报 ， 发 现 其 协议 字段 指明 IPv4 套 IPv4 封 装 ， 
于 是 去 除 最 外 层 IPv4 首 部 ， 然 后 把 该 数据 报 的 剩余 部 分 (也 就 是 在 顶 
部 LAN 上 多 播 过 的 UDP 数据 报 的 一 个 副本 ) 作为 一 个 多 播 数 据 报 输出 
到 目 己 所 在 的 LAN 上 。 


(8) 底部 LAN 上 的 所 有 文 持 多 播 的 主机 都 接收 到 这 个 多 播 数 据 


报 。 


最 终结 采 十 在 顶部 LAN 上 发 送 的 多 播 数 据 报 被 同样 作为 多 播 数据 
报 在 压 部 LAN 上 传送 。 即 使 跟 这 两 个 LAN 分 别 相 连 的 那 两 个 路 由 器 以 
Ba a re eae eel cee ， 该 结果 也 照样 发 


本 例 中 我 们 展 出 每 个 LAN 各 有 一 个 主机 通过 运行 mrouted 程 序 提 
供 多 播 路 由 功能 。 这 是 MBone 一 开始 的 做 法 。 然 而 到 了 1996 年 左右 ， 
多 播 路 由 功能 开始 出 现在 大 多 数 主要 路 由 器 厂商 生产 的 路 由 絮 中 。 要 
是 图 B-1 中 的 那 两 个 单 播 路 由 路 UR3 和 UR4 具 有 多 播 能 力 ， 我 们 就 根本 
不 需要 运行 hrouted， 因 为 UR3 和 UR4 将 用 作 多 播 路 由 器 。 然 而 只 
UR3 和 UR4 之 间 仍 然 有 无 多 播 能 力 的 其 他 路 由 器 ， 隧 道 就 是 必需 的 。 
这 时 的 隧道 端点 将 是 MR3 (UR3 的 能 多 播 蔡 代 物 ) 和 MR4 (UR4 的 能 
BZIP SD) ， 而 不 是 MR2 和 MR5。 


在 图 B-1 所 示 的 情形 中 ， 每 个 多 播 分 组 在 顶部 和 底部 的 LAN 上 均 
出 现 两 次 : 一 次 是 作为 一 个 多 播 分 组 ， 另 一 次 是 作为 隧道 内 的 一 个 单 
播 分 组 穿行 在 运行 着 mrouted 的 主机 和 下 一 跳 单 播 路 由 器 之 间 (例如 
MR2 和 UR3 之 间 以 及 UR4 和 MR5 之 间 ) 。 这 个 额外 的 副本 是 隧 罕 的 代 
价 。 把 图 B-1 中 的 那 两 个 单 播 路 由 器 UR3 和 UR4 替 换 成 多 播 路 由 器 〈 称 
为 MR3 和 MR4) 的 优势 在 于 避免 每 个 多 播 分 组 的 这 个 额外 副本 出 现在 
LAN 上 。 即 使 MR3 和 MR4 之 间 因 为 某 些 中 间 路 由 器 (图 中 末 展 示 ) 1x 
有 多 播 能 力 而 必须 建立 一 个 隧道 ， 这 种 蔡 换 依然 优势 明显 ， 毕 竟 能 够 
避免 在 每 个 LAN 上 复制 副本 。 


MBone 如 今 已 被 原生 (native) 多 播 网 络 取代 而 几乎 不 复 存 在 。 在 
因特网 多 播 基 础 设施 中 仍 可 能 出 现 障 道 ， 不 过 它们 往往 存在 于 同一 个 
ISP 内 部 的 多 播 路 由 器 之 间 ， 对 于 最 终 用 户 是 不 可 见 的 。 


B.3 6bone 


6bone 是 出 于 类 似 MBone 的 原因 于 1996 年 创建 的 一 个 虚拟 网 络 : 由 
支持 IPv6 的 主机 构成 的 各 个 孤岛 上 的 用 户 希 望 使 用 一 个 虚拟 网 络 连 接 
在 一 起 ， 而 不 必 等 到 所 有 的 中 间 路 由 器 都 变 成 支持 IPvV6。 本 书写 至 此 
处 时 ，6bone 已 因 人 们 更 偏好 原生 IPv6 部 署 而 趋 于 淘汰 ， 估 计 到 2006 年 
6 月 6bone 将 停止 运作 | Fink and Hinden 2003] 。 我 们 讨论 6bone 是 因为 
它 是 展示 经 配置 隧道 的 一 个 例子 。 我 们 将 在 B.4 节 把 这 个 例 季 扩展 成 包 
舍 动 态 隧 道 。 图 B-2 展 示 的 例子 中 有 两 个 支持 IPv6 的 LAN 使 用 一 个 隧道 
彼此 连接 ， 而 该 隧道 穿越 的 中 间 路 由 器 只 支持 IPv4。 我 们 还 在 该 图 中 
用 数字 标 出 了 如 下 的 步骤 。 


P d ^ 
| Ivi | PARA GOES RE. 
| SuSE J REIG, 
$ ^ HPA 1E de o5 d 
Wi he: Ded kb Ie At 
CIPVASZ ENG 3 


以 大 网 | P»6 |TCP| TCP 
Pv sili | 首部 pm d 


Ive 3-H AGER wave | [sky fev it. 
CH Tu ee och PRs 
es | > 
I4 IR 


图 B-2 ”6bone 上 使 用 的 IPv4 套 IPv6 封 装 


(1) 顶部 LAN 上 的 主机 H1 发 送 一 个 承载 某 个 TCP 分 节 的 IPv6 数 据 
报到 底部 LAN 上 的 主机 H4。 我 们 把 这 两 个 主机 标注 成 “TPv6 主 机 ”， 不 
过 它们 均 可 能 还 运行 IPvV4。H1 上 的 IPv6 路 由 表 指 定 主机 HR2 为 下 一 跳 
ee eee ee 

它 * o 


(2) 主机 HR2 有 一 个 到 达 主 机 HR3 的 经 配置 隧道 。 该 隧道 通过 在 
IPv4 数 据 报 中 封装 IPv6 数 据 报 ( 称 为 IPv4 套 IPv6 封 装 ) 使 得 IPv6 数 据 报 
能 够 穿越 IPv4 因 特 网 在 两 个 隧道 端点 之 间 传 送 。IPv4 协 议 字 段 的 值 为 
41。 我 们 指出 隧道 两 端的 那 两 个 IPv4/IPv6 主 机 HR2 和 HR3 还 同时 扮演 
IPv6 路 由 器 角色 ， 因 为 它们 都 把 从 一 个 接口 接收 到 的 IPv6 数 据 报 转 发 
到 另 一 个 接口 。 经 配置 隧道 也 计 作 一 个 接口 ， 不 过 它 是 一 个 虚拟 接口 
而 不 是 一 个 物理 接口 。 
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(3) 隧道 端点 之 一 的 HR3 接 收 这 个 经 过 封装 的 数据 报 ， 简 掉 它 的 
IPv4 首 部 后 把 镜 下 的 IPv6 数 据 报 发 送 到 上 自己 所 在 的 LAN 上 。 


(4) 目的 主机 H4 接 收 到 这 个 IPv6 数 据 报 。 


B.4 6to4: IPv6 过 渡 


在 “Connection of IPv6 Domains via IPv4 Clouds” (RFC 3056 

| Carpenter and Moore 2001] ) 一 文中 详 述 的 6to4 过 渡 机 制 是 在 图 B-2 
所 示 虚 拟 网 络 中 动态 创建 隧道 的 一 个 方法 。 与 先前 设计 的 动态 隧 罕 机 
制 不 同 的 是 ，6to4 仅 仅 涉及 执行 隧 罕 处 理 的 路 由 器 ， 先 前 设计 的 机 制 
却 要 求 每 个 个 体 主机 都 有 一 个 IPv4 地 址 并 清楚 隧 穿 机 制 本 身 。6to4 使 
得 配置 更 为 简单 ， 并 有 一 个 便于 实施 安全 策略 的 集中 位 置 。6to4 功 能 
还 允许 与 在 网 络 边 界 常 见 的 NAT/ 防 火 墙 功 能 (例如 处 于 某 个 DSL 或 线 
缠 调 制 解 调 器 连接 的 用 户 端 的 一 个 小 型 NAT/ 防 火 墙 设备 ) 并 置 。 


6to4 地 址 格式 如 图 B-3 所 示 ， 处 于 2002/16 范 围 之 内 。16 位 格式 前 
缀 9x2002 之 后 跟 以 32 位 IPv4 地 址 ， 两 者 共同 构成 公 网 拓扑 ID， 剩 下 
16 位 子 网 ID 和 64 位 接口 ID。 举 例 来 说 ， 与 我 们 的 主机 freebsd (X 
IPV4 地 址 为 12 ,106 .32.254) 对 应 的 6to4 前 级 是 
2002:c:20fe/48 -° 


图 B-3 ”6to4 地 址 


6to4 相 比 6bone 的 优势 体现 在 构成 6to4 基 础 设施 的 隧道 是 自动 建立 
的 ， 不 需要 预先 进行 配置 。 使 用 6to4 的 网 点 使 用 一 个 众所周知 的 IPv4 
任 播 地 址 (RFC 3068 [Huitema 2001] ) 192.88.99.1 配 置 一 个 默认 
路 由 器 ， 它 对 应 于 IPv6 地 址 2002:c058:6301: :。 愿 意 扮演 6to4 网 关 
角色 的 原生 (native) IPv6 基 础 设施 上 的 路 由 器 必须 通告 一 个 去 往 
20027/16 的 路 径 ， 然 后 把 接收 到 的 IPv6 数 据 报 封装 在 IPv4 数 据 报 中 转 
发 出 去 ， 所 用 IPv4 目 的 地 址 取 目 航 在 6to4 地 址 中 的 IPv4 地 址 。 这 些 路 
由 器 既 可 以 局 部 于 一 个 网 点 或 一 个 区 域 ,， 也 可 以 是 全 球 的 ， 具 体 取决 
于 它们 的 路 径 通告 范围 。 


这 些 虚 拟 网 络 的 最 终 目标 是 随 着 时 间 的 推移 ， 当 中 间 环 节 的 路 由 
器 逐渐 获得 所 需 的 功能 (就 MBone 而 言 是 多 播 路 由 ， 束 6bone 和 其 他 过 
滤 机 制 而 言 古 IPv6 路 由 ) 之 后 ， 它 们 将 消失 。 
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附录 C 调试 技术 


本 附录 包含 调试 网 络 应 用 程序 的 一 些 建 议和 技巧 。 没 有 单个 技巧 
能 够 答复 所 有 疑问 ， 而 是 介绍 了 我 们 应 熟悉 各 种 各 样 的 工具 ， 然 后 在 
我 们 的 环境 中 使 用 起 作用 的 任何 工具 。 


CA AB ARLES 


许多 版 本 的 Unix 提 供 一 个 系统 调用 跟 中 机 制 。 它 通常 可 以 作为 一 
个 有 价值 的 调试 技巧 。 


在 这 个 级 别 上 调试 程序 时 ， 我 们 需要 区 分 系统 调用 和 画 数 。 前 者 
是 进入 内 核 的 入 口 点 ， 本 节 介 绍 的 工具 所 能 跟踪 的 正 是 它们 。POSIX 
和 其 他 大 多 数 标准 使 用 函数 一 词 来 描述 在 用 户 看 来 是 函数 的 东西 ， 即 
便 它 们 在 某 些 实现 上 可 能 是 系统 调用 。 举 例 来 说 ， 在 源 目 Berkeley 的 
内 核 上 socket 是 一 个 系统 调用 ， 不 过 它 在 应 用 程序 开发 人 员 看 来 只 
是 一 个 普通 的 C 函 数 。 然 而 在 SYR4 上 socket 却 只 是 套 接 字 函数 库 中 
的 一 个 认 函 数 ， 由 它 调用 putmsg 和 getmsg， 后 两 者 才 是 真正 的 系统 
调用 。 

我 们 在 本 节 查 看 运行 时 间 获 取 客 户 程 序 过 程 中 涉及 的 系统 调用 。 
我 们 在 图 1-5 中 给 出 了 该 程序 的 套 接 字 版 本 。 


C.1.1 BSD 内 核 套 接 字 


我 们 的 下 一 个 例子 是 源 自 Berkeley 的 内 核 之 一 FreeBSD， 它 的 所 有 
套 接 字画 数 都 是 系统 调用 。FreeBSD 用 于 运行 一 个 程序 并 跟踪 所 执行 
之 系统 调用 的 程序 钙 ktrace。 它 把 跟踪 信息 写 到 一 个 可 使 用 kdump 
程序 显示 的 文件 (其 默认 名 字 为 ktrace .out) 。 我 们 如 下 执行 套 接 
字 版 本 的 时 间 获 取 客 户 程序 : 
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freebsd % ktrace daytimetcpcli 192.168.42.2 
Tue Aug 19 23:35:10 2003 


EAE DUE kdumpil ERO fe IBS SERRE HA o 


3211 daytimetcpcli CALL socket(0x2, Ox1, 0) 
3211 daytimetcpcli RET socket 3 


3211 daytimetcpcli CALL connect(Ox3, Ox7fdffffe820, 0x10) 


3211 daytimetcpcli RET connect 0 


3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 
3211 daytimetcpcli GIO fd 3 read 26 bytes 

"Tue Aug 19 23:35:10 2003\r\n 

1 


3211 daytimetcpcli RET read 26/0x 


3211 daytimetcpcli CALL write(Ox1, 0x204000, Oxla) 
3211 daytimetcpcli GIO fd 1 wrote 26 bytes 
"Tue Aug 19 23:35:10 2003\r\n 


3211 daytimetcpcli RET write 26/0x 


3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 
3211 daytimetcpcli GIO fd 3 read 0 bytes 


3211 daytimetcpcli RET read 0 


3211 daytimetcpcli CALL exit(0) 


其 中 3211 是 进程 ID。CALL 标 明 系 统 调用 ，RET 表 示 返 回 值 ，GI0 
代表 普通 进程 O。 我 们 看 到 socket 调 用 和 connect 调 用 之 后 是 返回 
26 个 字 节 的 read 调 用 。 客 户 进程 把 这 些 字 节 写 到 标准 输出 ， 下 一 个 
read 调 用 返回 0 (EOF) ° 


C.1.2 Solaris9 内 核 套 接 字 


Solaris 2.x 基 于 SVR4，2.6 以 前 的 所 有 版 本 如 图 31-3 所 示 实 现 套 接 
字 。 以 这 种 式样 实现 套 接 字 的 所 有 SVR4 系 统 存 在 的 一 个 问题 是 难以 
100% 地 兼容 源 自 Berkeley 的 内 核 套 接 字 。 为 了 提供 额外 的 兼容 性 ， 
Solaris 2.6 及 以 后 的 版 本 更 改 了 实现 手段 ， 改 用 sockfs 文 件 系统 实现 
套 接 字 。 这 样 就 提供 了 内 核 套 接 字 ， 我 们 可 以 使 用 truss 在 我 们 的 套 
接 字 客户 上 进行 验证 。 


solaris % truss -v connect daytimetcpcli 127.0.0.1 
Mon Sep 8 12:16:42 2003 


经 过 通常 的 函数 库 动 态 链接 之 后 ， 我 们 看 到 的 第 一 个 系统 调用 是 
so_socket， 它 是 由 我 们 的 socket 调 用 引发 的 系统 调用 。 它 的 前 3 个 


参数 就 是 我 们 调用 socket 的 3 个 参数 。 
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so_socket(PF_INET, SOCK_STREAM, IPPROTO_IP, "", 

connect(3, OXxFFBFDEFO, 16, 1) = 0 
AF INET name = 127.0.0.1 port = 13 

read(3, "Mon Sep 8 1".., 4096) 


Mon Sep 8 12:48:06 2003 
write(1, "Mon Sep 8 
read(3, OxFFBFDFOS3, 4096) 
_exit(0) 


我 们 接 下 来 看 到 的 系统 调用 是 connect， 当 以 -v connect 标 志 

执行 truss 时 ， 它 还 显示 由 第 二 个 参数 指向 的 套 接 字 地 址 结构 的 内 容 

WP 地 址 和 端口 号 ) 。 我 们 用 省 略 号 省 掉 的 只 是 一 些 处 理 标准 输入 和 
标准 输出 的 系统 调用 。 


C.2 标准 因特网 服务 


我 们 应 该 已 经 熟悉 图 2-18 中 说 明 的 标准 因特网 服务 了 。 我 们 已 经 
多 次 为 测试 所 编写 的 客户 程序 使 用 了 aytime 服 务 。discard 服 务 古 
我 们 向 它 发 送 数据 的 方便 端口 。echo 服 务 类 似 于 贯穿 本 书 使 用 的 回 射 
服务 器 。 

许多 网 点 现在 禁止 穿越 防火 墙 访问 这 些 服 务 ， 因 为 从 1996 年 起 出 


现 的 一 些 拒绝 服务 型 攻击 利用 了 这 些 服 务 (习题 13.3) 。 尽 管 如 此 ， 
你 在 目 己 的 网 络 内 部 还 是 有 和 希望 使 用 这 些 服务 的 。 


C3 sock 程 序 


Stevens 移 生 编 写 的 Sock 程 序 最 早出 现在 TCPv1 中 ， 在 那里 它 经 党 
用 于 产生 特殊 的 个 案 条 件 ， 其 中 大 多 数 在 随后 的 正文 中 使 用 tcpdump 
予以 探查 。sock 程 序 的 便利 之 处 在 于 能 够 产生 如 此 之 多 的 不 同情 形 ， 
从 而 免除 我 们 被 迫 编 写 特殊 测试 程序 之 苗 。 


我 们 不 在 正文 中 给 出 这 个 程序 的 源 代码 (超过 2000 行 的 C 代 
码 ) ， 不 过 是 可 以 公开 获取 的 (参见 前 言 ) 。 


该 程序 运作 在 以 下 四 个 模式 之 一 ， 而 且 每 个 模式 既 可 以 使 用 
TCP， 也 可 以 使 用 UDP ° 


e 标准 输入 ， 标 准 和 输出 客户 (图 C-1) ° 


sock 


TCP 连 接 或 UDP 数据 报 


Ne s d 


图 C-1 sock 客 户 ， 标 准 输入 ， 标 准 输出 
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在 这 个 客户 模式 中 ， 从 标准 输入 读 入 的 任何 东西 都 写 出 到 网 络 ， 
而 从 网 络 接收 的 任何 东西 都 写 出 到 标准 输出 。 服 务 器 的 人 P 地 址 和 端口 
必须 指定 ， 如 采 是 TCP 和 情形， 该 程序 号 提 前 执行 一 次 主动 打开 操作 。 


。 标准 输入 ， 标 准 输出 服务 右 。 这 个 模式 类 似 上 一 个 模式 ， 老 别 只 
征 在 服务 万 模式 下 该 程序 捆绑 一 个 众所周知 的 端口 到 它 的 套 接 
字 ， 并 且 如 果 是 TCP 情 形 ， 那 环 提 前 执行 一 次 被 动 打 开 操 作 。 

。 源 客户 (图 C-2) ° 


TCP 连 接 或 UDP 数据 报 ge 
Hg o9 d 


图 C-2 ”作为 源 客户 的 sock 程 序 
该 程序 以 某 个 指定 的 大 小 同 网 络 执行 某 个 固定 数目 的 写 操作 。 


。 漏 槽 服务 右 〈 图 C-3) 。 


CHa RJ I Ak 


图 C-3 ”作为 漏 槽 服务 器 的 sock 程 序 
该 程序 从 网 络 执行 固定 数目 的 读 操 作 。 
这 4 种 运作 模式 与 以 下 4 个 命令 相对 应 : 


sock[options] hostname service 
sock[options]-s [hostname] service 


sock[options]-i hostname service 
sock[options]-is[hostname] service 


其 中 hostname 是 一 个 主机 名 或 IP 地 址 ，service 是 一 个 服务 名 或 端 
口号 。 除 非 在 使 用 那 两 个 服务 絮 模 式 时 指定 了 可 选 的 hosthame， 否 则 
捆绑 的 是 通 配 地 址 。 


sock 程 序 约 有 40 个 命令 行 选项 可 以 指定 ， 它 们 开局 该 程序 的 可 选 
等 性。 我 们 不 详细 说 明 这 些 选项 ， 不 过 第 7 章 中 讲解 的 套 搂 字 选项 天 不 


5 ?能够 设置 。 不 给 出 任何 参数 执行 本 程序 显示 如 下 的 选项 汇总 输 


-bn bind n as client’ s local port number 


-C convert newline to CR/LF & vice versa 

-f a.b.c.d.p foreign IP address = a.b.c.d, foreign port# = p 
-g a.b.c.d loose source route 

-h issue TCP half-close on standard input EOF 

-i "source" data to socket, "sink" data from socket (w/-s) 
-j a.b.c.d join multicast group 

-k write or writev in chunks 


-l a.b.c.d.p client’ s local IP address = a.b.c.d, local port# = 


-nn #buffers to write for "source" client (default 1024) 
-0 do NOT connect UDP client 

-pn #ms to pause before each read or write (source/sink) 
-q n size of listen queue for TCP server (default 5) 

-r n #bytes per read() for "sink" server (default 1024) 


-S operate as server instead of client 
-t n set multicast ttl 

-u use UDP instead of TCP 

-V verbose 


-Ww Nn #bytes per write() for "source" client (default 1024) 
-X n #ms for SO_RCVTIMEO (receive timeout) 
-y n #ms for SO_SNDTIMEO (send timeout) 


-A SO_REUSEADDR option 

-B SO_BROADCAST option 

-C set terminal to cbreak mode 

-D SO DEBUG option 

-E IP RECVDSTADDR option 

-F fork after connection accepted (TCP concurrent server) 


-G a.b.c.d strict source route 

-H n IP_TOS option (16=min , 8=max thru, 4=max rel, 2=min cost) 
-I SIGIO signal 

-J n IP_TTL option 


-K SO_KEEPALIVE option 

-L n SO_LINGER option, n = linger time 

-N TCP_NODELAY option 

-0 n #ms to pause after listen, but before first accept 

-P n #ms to pause before first read or write (source/sink) 
-Q n #ms to pause after receiving FIN, but before close 

-R n SO_RCVBUF option 

-S n SO_SNDBUF option 


-T SO_REUSEPORT option 


-Un enter urgent mode before write number n (source only) 


-V use writev() instead of write(); enables -k too 
-W ignore write errors for sink client 

-Xn TCP MAXSEG option (set MSS) 

-Y SO DONTROUTE option 

-Z MSG PEEK 


C. 小 测试 程序 


作者 〈Stevens 先 生 ) 在 撰写 本 书 期 间 一 直 使 用 的 男 一 个 有 用 的 调 
试 技巧 就 是 编写 小 测试 程序 以 检查 某 个 给 定 的 特性 在 精心 构造 的 测试 
个 案 中 如 何 工作 。 有 一 组 库 范 数 的 包 于 函 数 和 一 些 简单 的 错 座 处 理 函 
数 《就 如 芮 穿 本 书 使 用 的 那些 ) 有 助 于 编写 这 些小 测试 程序 。 这 些 画 
数 缩减 了 我 们 被 迫 编 写 的 代码 量 ， 不 过 仍然 提供 所 需 的 错误 测试 能 


C.5 tcpdump 程序 


像 tcpdump 这 样 的 工具 在 网 络 编程 中 的 价值 是 难以 衡量 的 。 该 程 
序 一 边 从 网 络 读 入 分 组 一 边 显 示 关 于 这 些 分 组 的 大 量 信息 。 它 还 能 够 
只 显示 与 所 指定 的 准则 匹配 的 那些 分 组 。 例 如 : 


% tcpdump '(udp and port daytime) or icmp' 


只 显示 源 端 口 或 目的 端口 为 13 (daytime 服 务 ) 的 UDP 数据 报 亦 或 
ICMP 分 组 。 再 如 : 


% tcpdump 'tcp and port 80 and tcp[13:1] & 2 !=0' 


只 显示 源 端 口 或 目的 端口 为 80 (HTTP 服 务 ) 且 设 置 了 SYN 标 志 的 
TCP 分 方 。SYN 标 志 在 从 TCP 首 部 开始 处 起 字 节 偏 移 量 为 13 的 那个 字 
节 中 的 值 为 2。 又 如 : 


% tcpdump 'tcp and tcp[0:2] > 7000 and tcp[0:2] <= 7005' 


H Taini O 70014070052 IRJBJTCPA7 T 9 Prom ZETCP Erb 
中 从 字 节 偏 移 量 为 0 开始 占据 2 个 字 节 。 


TCPvV1 的 附录 A 详细 讲述 了 这 个 程序 的 具体 运作 。 


该 程序 可 从 http://www.tcpdump.org/ 获 取 ， 能 够 工作 在 许多 不 同 版 
本 的 Unix 上 。 它 最 初 是 由 LBL 的 Van Jacobson ` Craig Leres 和 Steven 
McCanne 编 写 的 ， 现 在 由 tcpdump .org 的 一 支队 伍 维护 。 


有 些 广 家 自己 提供 具有 类 似 功能 的 程序 ， 例 如 Solaris 2.x 提 供 
snoop 程 序 。tcpdump 的 优势 在 于 它 在 许多 版 本 的 Unix 上 都 能 工作 ， 
而 在 异 构 环 境 中 使 用 单个 工具 而 不 是 为 每 个 环境 分 别 使 用 一 个 工具 这 
一 点 本 身 就 是 一 个 大 优点 。 


C.6 netstat 


896 
我 们 已 经 贯穿 全 书 多 次 使 用 netstat 程 序 。 该 程序 服务 于 多 个 目 
PE 


。 [Ez PU rt IRA, o RI HES.6 HR SJITCPIBI AT PURUS Ss TE 
序 之 后 如 此 妃 踩 两 个 端点 的 状态 。 

° EUTOEA BL LS MEU MTB SHB - -ia 标 志 是 展露 多 播 组 
的 通常 方式 ， 在 Solaris 2.x 上 则 使 用 - m o 

。 使 用 - s 选 项 显示 各 个 协议 的 统计 信息 。 我 们 在 8.13 世 查看 UDP 缺 

乏 流 量 控制 能 力 时 给 出 了 这 样 的 例子 。 

使 用 -rr 选项 显示 路 由 表 或 使 用 - 工 选 项 显示 接口 信息 。 我 们 在 1.9 

廊 使 用 netstat 发 现 我 们 的 网 络 拓扑 时 给 出 了 这 样 的 例子 。 


netstat 还 有 其 他 的 用 途 ， 大 多 数 厂家 义 目 行 添 加 了 一 些 特性 ， 
具体 参见 自己 系统 上 的 手册 页 面 。 


C.7 lsof 程 序 


名 字 1sof 代 表 “ 列 出 打开 的 文件 (list open files) ” ° 与 tcpdump 一 
7 eee 并 已 被 移植 到 许多 版 
JUnix™ ° 


lsof 的 常见 用 途 之 一 古 找 出 哪个 进程 在 指定 的 IP 地 址 或 端口 上 打 
开 了 一 个 套 接 字 。netstat 告 诉 我 们 哪些 IP 地 址 和 端口 正在 使 用 中 以 
及 各 个 TCP 连 接 的 状态 ， 却 没有 标识 相应 的 进程 。1lsof 弥 补 了 这 个 缺 
FE 。 举例 来 说 ， 为 找 出 哪些 进程 在 提供 daytime 服 务 ， 我 们 执行 如 下 命 


As 


freebsd % lsof -i TCP:daytime 

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE 
NAME 

inetd 561 root 5u IPv4 Oxfffff260 

*:daytime (LISTEN) 


inetd 561 root 7u IPv6 Oxfffff800302b6720 oto 
*:daytime 


1sof 告 诉 我 们 命令 (本 服务 由 ijnetd 服 务 器 提供 ) 、 它 的 进程 
ID、 属 主 、 描 述 符 (IPv4 为 5，IPv6 为 7，U 表 示 打 开 目 的 是 读 与 写 ) ` 
套 接 字 类 型 、 协 议 控 制 块 地 址 、 文 件 的 大 小 或 偏 移 (对 于 套 接 字 没有 
意义 ) 、 协 议 类 型 及 名 称 。9 

该 程序 的 常见 用 途 之 一 是 : 如 果 在 启动 一 个 捆绑 其 众所周知 端口 


的 服务 夯 时 得 到 该 地 址 已 在 使 用 的 出 错 消 思 ， 那 么 我 们 可 以 使 用 Lsof 
找 出 正在 使 用 该 端口 的 进程 。 


由 于 1Lsof 只 报告 打开 着 的 文件 ， 因 此 无 法 报告 不 跟 某 个 打开 着 的 
文件 关联 的 网 络 端点 : 处 于 TIME_WAIT 状 态 的 TCP 端 点 。 


]sof 程 序 可 从 ftp://lsof.itap.purdue.edu/pub/tools/unix/lsof/ 获 取 。 它 
是 由 Vic Abell 编 写 的 。 


有 些 三 家 提供 自己 的 类 似 工 具 ， 例 如 FreeBSD 提 供 fstat 程 序 。 
lsof 的 优势 跟 tcpdump 一 样 ， 仍 然 在 于 它 在 许多 版 本 的 Unix 上 都 能 工 


作 。 
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@@ 作 者 在 正文 中 说 文件 的 大 小 或 偏 移 对 于 套 接 子 没有 意义 ， 然 而 这 个 程 
Fe (sof) 的 作者 却 认 为 套 接 字 的 偏 移 可 能 会 很 有 用 。 大 多 数 Unix 系 统 
上 偏 移 来 自 file 结 构 的 f_offset 成 员 。 该 结构 成 员 在 每 次 输入 或 输出 文件 
中 学 市 时 都 会 增长 。 因 此 偏 移 量 的 变化 对 舍 接 字 来 说 意味 看 数据 的 传 
ISFEMEIT HR ° 


附录 D = FARBER 
D.1 unp .h 头 文件 


本 书 正 文中 几乎 每 个 程序 都 包含 如 图 D-1 所 示 的 unp .h 头 文件 。 
该 头 文件 包含 大 多 数 网 络 程 广 都 需要 的 所 有 标准 系统 头 文件 以 及 一 些 
普通 的 系统 头 文 件 。 它 还 定义 了 诸如 MAXLINE 等 常 值 ， 并 定义 了 我 们 
在 正文 中 定义 过 的 函数 (例如 readline) 以 及 所 用 到 的 所 有 包 庄 画 
数 的 ANSI C 函 数 原型 。 我 们 没有 给 出 这 些 原型 。 


TD 
1 /* Our oan header. Tabs sre set for 4 spaces, nut 8 4/ 

2 fifncCef — vnp n 

3 fdc-inc unp A 

4 #include ", config.h" /* configuration zpticns for current O3 */ 


5 人 "ADCnrighr is generated by configure ?/ 


€ /* If anything changes in tne fcllowinz list of +includes, rust change 
accite.14 alco, tor confiqure'c tecto. */ 


6 #include «sys/types.h- /* basic syster data types */ 

9 binclu2e «sys/sccker i» /* basic secket definitions */ 

10 #include «Sys/tine.n^ /* timeval[) for select() */ 

11 fincludc <time.h> /* timespec(] for pselect{) */ 

12 #include «nstinet/ia.h» tw scckadd- ini) and cther Internet defns */ 
13 include earpa/' inet hs /* 1nerí(3) funcricns */ 

14 finclude «errno.h» 

15 $include sicntl.h- /* fcr nonblocking */ 


16 &include «nstJdb.h» 
17 finclude «signal .h> 
18 #include «ctdio.h» 
15 #include x«stdliz.3 


20 finclude <string.h> 

4l finclude <sye/stat. a> /* fcr S xxx file mda conetants v/ 
22 #include <SyG/uio.h> /* fcr iovee{} and readv/writey */ 
23 #include «uristi.h» 

24 finclude -Sys/wa-z-.n^ 

45 finclude <eye/un.h> /* for Unix domain zockete */ 


26 @ifde= [AVE_SY¥YS SZLSCT )} 
27 & include  <sys/select.h> /* fcr convenierce */ 
2% andir 


49 fatdet HAVE SYS SYSCTL H 
30 # include — «sys/sysctl.h» 
31 ğendir 


32 #ifdef HAVE POLC H 


co 
co 
co 


33 
34 


35 
35 
37 


39 
3s 
4g 


41 
42 
43 
41 
45 
45 
47 
43 
43 
52 
51 
52 


53 
54 
55 


55 
57 
58 


53 
60 
61 


62 
$3 
61 
65 


65 
67 
LI 


€3 
70 
71 


72 
"à 
74 
75 
15 
TI 
78 
73 
82 


A1 


8 include <poll b> 
flendit 


Hitdet HAVE EYE EVENT H 
# include — «sys/event.h» 
Rendif 


Hifdef HOVE STRINGS H 
f" include <etrinse.h> 
Hendit 


/* for convenience */ 


, 
/* 


f 
/* 


for kqueus */ 


for converiance */ 


/* Three headers are normally needed for socket/file ioctl's: 
+ cays/icetl he, esysffilis.ho», and <sys/sockin. n>. 


ai 

fiidef HAVE SYS .OCTIL H 
W include — «ays/ioccl.h- 
Hendif 

#ifdef HAVE SYS FILIO H 
# include —-sys/filio.h- 
fendit 


Wizdef NAVE SYS SCCXIO I 
B include €sRys/sociu.fi 
fendif 


ifdef HAVE ZTHREAD H 
# incluse — «pthrc2d.h» 
Hendif 


Hirelef HAVE NET IF D*, H 
# include — enet/if dl.hs» 
endif 


Hitdet HAVE_NETINET_SCTP_E 


Hincluds «netinet/sctp.h» 


endif 


/* OSF/1 actually disables recy () emi eewd() in esys/sneket h> af 


Hifdef osf 
#undet recov 
Hundef send 


hdefine racvia,b,c,dt recvfrom/a,b,c,d, 6,0: 
Hdefine ssnd!a,b,c,di! senàt2 (a,b,c,d, 0,0) 


Hendif 
Hizndef -NADDR NOME 


fidefine -NADDR NONE Oxffffffff re 


Wendif 


Hifndef SHUT RD 
fdefine SHUT RD 
fidefine SHUT WR 
Hdefine SHUT_RDWR 
Wendif 


[D 


Hifndef -NET ADDRSTR.EN 


Hdetine INET ADDRSTRLEN 16 


Rendif 


a 
é Li 


/5 Def ce following even if TPv6 mot 


should have been in «netinet/in.h» */ 


these thrse POSIX rares are new */ 
Shutdown for reading */ 
shutdowr for writing */ 
shutdown. for reading and writing */ 


"dod. ddz. zdd.dddo" 
1234567690123456 */ 


supported, sc wm can aj ways allocate 


co 
mA 


82 
83 
84 
BS 
BE 
RT 
85 


85 
90 
91 


P 
£ 


93 
94 
95 
95 


> 
4 


J5 
92 
100 
151 


192 
133 
124 
125 
126 
107 
158 
125 
110 


111 
112 
113 
114 
115 
116 
117 


118 
119 
120 
121 
122 
123 
124 
125 


126 
127 
128 
129 
130 
131 
132 
133 


an adequately sized Suffer withcut #ifdefs in the code. */ 
Wifndef INET6 ADIRSTRLEN 
#detinc INETE ADORSTaLEN 46 /* max cise ot IPv6 address string: 
"KM i KXXX i XKKX : KXXX i XXKX : KMAN XXNX NICE OF 
Ne : 3COCX OXX: ON ook : 30€ ddd . ddd. ddà . dad, 2 * 
7234557R91*23455789212345678921234567890n123456 */ 
#endit 


/* Define bze-o!! as a macro i= it's not in standard C likrary. */ 
fitndez HAVE BEBRO 

fdcfinc bzerc(pt-z,n) wemzet(ptr, 0, n) 

fendif 


/* Older resclvere do nct have qethoctbyname2;) */ 

fitndelcEAV3 GETHOSTBYNAN32 

&dezinecet-osthyname? (host, family) gethosthyrane ( host.) | 
fend:t 


/* The structure returned Sy recvirom_flags() */ 
struct unz in pktinto { 
struct in_addr ipi addr; /rv det IPvi addrece */ 
in- ipi ifindex; /* receiveó interface index */ 
} 
/* We need the newer CMSG LEN!) and CMSG SPACZ() macros, but few 
implementations support them today, These two macros really need 
an ALIGN!) macro, but esch implementation does this differently. */ 
4ifndet CMsG_LZN 
4Gefine NSG LaNisize) (sizeof(strucct cnsqhdr) + isize!] 
#endiif 
4ifmdef CMAG AFAN3 
#define CMEC STAC3 (size) {sizeotistruct cnsghár) + 182221) 
fendit 


/* POSIX requires the SUN LEN/) macro, but noz all implementations define 
iz (yet). Note that thie 4.4BSD macro works regardless whether there is 
z length field cr not. +/ 

Hi findef SUN LEN 


# define — SUN LEN(su) * 
ísizscfi*[su!] - sizeof[!su)--sun path) - strleni!(su)- »sun catt!] 
Hendir 
/* POSIX renames "Unix domain" as "local IPC." 
Net all systems Defins AF LOCAL and PF LOCAL (yer). */ 
4ifndef AF_TOCAL 


define AP LOCAL AP_UNIX 
endif 

4ifndef PF LOCAL 

lHdefine PF LOCAL PF UNIX 
jendif 


/* POSIX requires the an #include cf <poll.hs Jefine INFTIM, but many 
systems still define it in csys/stropts h>, We Ccn'- want =o include 
all the STRIAMS stuff if it'a not needed, a0 we just define INFTIM here. 


This ic the ctandzrd value, but there'c no guarantee it io -1, */ 
#ifndef INFTIM 
ddefine IMFTIM (-1) f= infinite poll timeout */ 
4ifaef HAVF PCLI, H 
"define INPTIM UNPH f° tell urpxti.h we defined it */ 


co 
N 


134 Hendiz 
135 Hendi 


135 /* Following could be derived from SUMAXCONN in <sye/eocket.h>, but many 
137 kernels still 4define it as 5. while actually supporting many more */ 


138 #define LISTENQ 1024 /* 2nd argument to listen!) */ 

133 /+ Miscellaneous coratarts */ 

1421 Hdefine MAXLINE 4095 /* mex Text line lergth */ 

141 "define BUFTSIZZ 8192 /* buffer size for reade and writec */ 
142 /* Define some port number that can be used for our examples */ 

143 Hdetine SERV PORT $877 /* TC? and ups */ 

141 Hderine SERV PORT STR "9E77" /* TCP and UsP */ 

145 Hde^ine DINTXSTR PATE * /Lap/uriix .sten f* Unix Conain stream ?/ 
145 define UNIXDG PATH */tmp/unix,dg" /* Unix Somain datagram */ 


14) /* Following shortens all the typecasts cf pcínter arguments: v/ 
143 Wdezine SA strucz sockadzr 


143 define HAVZ STRUCT SOCKADDR STORAGE 

153 #ifndef HAVs STRUCT SOCKADDR STORAGE 

151 /* 

152 * RPC 3493: protocol-indspendent placehclder for socket addresses 
153 */ 

154 Hdefine — S3 MAXSIZS 120 

155 Hde^ine — S8 ALTGNSTZR (sizeof(int&4 ti) 

15b Hifdet HAVE SUCSALDK SA LEN 

157 lWdetine — 33 PAD13I?E (_ SS ALIGNSITE - sizeoF/L char) - sizeofísa fani-y t!) 
158 Helse 

153 Hdctinc _ S88 TADISIZ2E (_ 85 ALIONSIZE  2oizcof;sa tcmily tl) 

162 Wendit 

161 define SS 2AD2812E ( SS MAXSIZE - 2* S5 NLIGNSIZE) 


162 struct sockaddr ecoraze ‘ 
163 #ifde= HAVE_SOCXADDR_SA_LEN 


164 u_char ss len; 

165 Wendiz 

1685 sa family tas family: 

167 char ss Pad-[ SS FADISIZK]: 

163 int64 t _ s3 align; 

168 char __ Ss pad2[ Ss FAD2STZE]: 

170 }: 

171 endif 

172 fine PILS_MODE IS IRUSR | S_IWUSR | S IRGRP | S IROTID 

173 /* default file access permissions for nsw files */ 
174 Wáefine DIR MCDZ {FILE MODE | s IXUS& | S IxSRP | S IXOTH) 

175 /* dezault sermissions tor new directorice */ 


175 typedef void Sigtunc(intj;;  /* for cignal nandlere */ 


177 Bdctinc min(a,b} Ia) < (b! ? (à) = (b); 
173 Wdefine maxía,.b! Iai > (bi ? fad : (b)? 


173 Wifndef = HAVE_ADDRINFO_STRUCT 
180 # include "../liz/adzrinfo.h' 

181 Hendi? 

182 Hifndef ~ HAVE IF NAMEINDEX STRUCT 


183 struct if nomcindex ` 
184 unsigned inz if irdex;  /* 1, 2, ... */ 


co 
UJ 


165 
186 
1&7 


158 


190 
191 
192 
193 


char 


E 


Q3enclf 
#ifndst 


tine t 
lon 
n 


3enàif 


*if name; 


/* rull-termineted nane. led", 


HAVE TIMESPHC STRICY 
169 struct tireapec { 


tv sec; 
Lv neu; 


/* seconds */ 


/^ and sanoseconds ^7 


图 D-1 我 们 的 unp ,h 头 文件 


au "y 


lib nnp. h 


D.2 config.h 头 文件 


本 书 使 用 GNU autoconf 工 具 辅 助 保障 所 有 源 代码 的 可 移植 性 ， 
它 可 以 从 http://ftp.gnu.org/gnu/autoconf 获 取 。 这 个 工具 生成 一 个 名 为 
configure 的 shell 脚 本 ， 你 把 软件 下 载 到 本 地 系统 之 后 必须 运行 它 。 
该 脚本 确定 你 的 Unix 系 统 提 供 哪些 特性 ， 套 接 字 地 址 结构 有 长 度 字 段 
吗 ? 支持 多 播 吗 ? 文 持 数据 链 路 套 接 字 地 址 结构 吗 ? 等 等 ， 生 成 一 个 
名 为 config.h 的 头 文件 。 它 是 上 一 节 介 绍 的 unp.h 文 件 包含 的 第 一 
个 头 文件 。 图 D-2 给 出 了 FreeBSD 5.1 上 生成 的 这 个 config ,h 头 文 
件 。 


其 中 从 第 一 列 开始 以 #define 打 头 的 行 表 示 该 系统 提供 的 特性 。 
注释 掉 并 合 有 #undef 的 行 代表 该 系统 没有 提供 的 特性 。 


Spancó4-mmoiown-jrecosas. i/comig.h 


I 


/* confic.h. Gensreted automatically by configure.  */ 
/* econfig.h.in.  Senera-ed automatically from cznfigure.in by au-oheazer.  */ 


M 


[n 


/* CPU, vendcr, and operating system */ 
fdofinc CPU VENDOR Of "oparcé4-uritrown-treebscss.1" 


^ 


/* Define if <netdb.h> defines strict addrinfs */ 
tdeline HAVE_ADDRINFO STRUCT 1 

/* Define if you have the <arpefinet he header file. */ 
tdefine HAVE ARPA INEI H 1 

/* Define if you have the bzero furction. */ 

10 4def-re HAVE BZERO 1 

11 f^ Define if che /Iev/streams/xLiso/Lup device exists */ 
12 /* #undef HAVE LEV STREAMS XTISO TC? */ 

13 /* Define if che /Zev/tcp device exiscs */ 

14 /* Wundef HAVS DEV TCP */ 

15 /* Define if che /Zev/xti/tcp device exists */ 

16 /* &urdef HAVZ DEV XTT TCP 4/ 

17 f* Define if you have rhe cevrn5.2» header file. */ 

18 4def-ne HAVE ZRRNO H i 

19 /* Define if you have the «fcrtl.a2» header fils. */ 

20 ddef-re HAVE SCNTL H 1 

21 /* Define if you have rhe geradsrinfo functicn. */ 

22 tGefine HAVE GETADURIMEFO 1 


co 


04 


co 
Ul 


^ 
- 


24 


25 
26 


27 
28 


29 
36 


31 
32 
33 
34 
35 
36 
37 
38 


39 
40 


41 
42 


43 
44 


45 
46 


47 
43 


49 
50 


51 
52 


53 
54 


55 
56 


57 
SA 


59 
40 


61 
62 


63 
64 


65 


/* define if qecadárinfo protctype is in <nerdb. n> */ 
Hdefine HAVE GETADDRINSO PROTC 1 


/* Define if you have the qetnoctbynamcz function. */ 
Hdefine HAVE GETHOSTBYNAMEZ 1 


/* Detine if you have che getnostbyname_r functicn. */ 
/* #unde= HAVE GETHOSTSYNAME 3 */ 


/* Detine it vou have she getaostname tunction, */ 
üdefine HAVE GETHOSTHAME 1 


/* define if gsthostneme protctype is in <unistd.h» */ 
fldefine HAVE GETHOSIHAME PROTO 1 


/* Refine if you have che getaaweinfo function. */ 


fide£ine HAVE GETNAMEINsO 1 


/* delia if getnane info prototype is in enetilb. h> af 


define HAVE GETNAMBIN-O PROTO 1 


/* define if getrusage prototyps is in «sys/resource.h» */ 
Hdetine HAVE GETPRUSAGE PROTO 1 


/* Define if vou have che hstrerror function. */ 
define HAVE_HSTRERROR 1 


/* define if hstrerror prototyps ic in «netdb.h» */ 
define HAVE_HSTRERROR PROTO 1 


/* Define if «net/it.h» defines ctruct if_nameindex */ 
Hdelise HAVE 7F NAMETNCEX STRUCT 1 


/* DeEine if vou have the if_nametoindsx Function. */ 
Hdeline HAVE IF NAMBTOINCEX 1 


/* define if -f nametoindex prototype is in «net/:f.h» */ 
"define HAVE IF NAMETIDNCEX PROTO 上 

/* Define if you have che inet aton function. */ 

Hácfine HAVE -NET AION 1 

/* define if -net atoun prototyps is in carpa/inet.k» */ 
Hdczine HAVE -NET ATON P3OTO 1 


/* Define if you have che inet cton function. */ 
Hdertine HAVE -NET PTON 1 


/* define if inet pton prototype is in <arpa/inet.h> */ 
Hdefine HAVE -NET PTON P3OTO 1 


/* befine if you have che kevant function. */ 
Hlde^ine WAVE KEVENT 1 


/* Define if you have -he kqueuc function. */ 
Heliae WAVE KQUEUK 1 


/* Define if you have che nal library (-1nslj. */ 
/* undef HAVE LIBNSL */ 


/* DeEine if you have -he pthread library /-lpthread). */ 
/* funde? HAVE LIBPTHRZA- */ 


/* Define if you have -he pthreads library (-lpthreads). */ 


6G /* #undef HAVG_LIBFTURBADS */ 


67 /* Define if you have the resoly library (-lresolv), */ 
GO /* #undef HAVE LIBRESOLV */ 

by /* Define if you have the xti Library ;-1xti!. */ 

70 /* &undef HAVE LIBXTI */ 


)i f* Define if you have the nketemp function. */ 
72 #define HAVE MKSTEMP 1 


#3 f* define i£ struct: meghdr contains the neq control element */ 
74 #define HAVE M33HD3 M3" CCNTRO!, 1 


15 f* Define if you have the «netoonfiq.h» header file. */ 
76 düdefine HAVE NETCONFTG H 1 


77 f* Define it you have the «netdb.h» header file. */ 
78 éiefine HAVE NETTR H 1 


79 f* Define it you have the «netdir.L» header file. */ 
BO /^ &undef HAVE METCIR H a/ 


Di /* Define if you have the «netinet/in.h- header file, */ 
82 #define HAVE NETINST IN 日 二 


03 /* Define if you have the «net/iE 3l.h- header file, */ 
84 #define HAVE NET IF DLH 1 


85 /* Define if you have the poll function. */ 
86 tdefine HAVE POLA 1 


87 /* Define if you have the <poll.h> header file. */ 
üs fdefine HAVE FOLL H 1 


89 /* Define if you have the pselec- function. */ 

$0 ttdefine HAVE PSELECT 1 

87 /* define +f pselect prototype is in «sys/stat.hs */ 

92 tdefine HAVE PSELECI PHOTO 1 

e3 /? Define |f you have tle epthreai h> header fie 47 

54 $define HAVE _PTHREAD H 1 

9& /^ Define if you have the es nal b» header File, 4/ 

56 ¢define HAVE EIUNAL E 1 

87 /^ Define if you have the sprintf functicn. ^f 

58 $definc HAVE EZNPRINTF 1 

$9 /+ define if snprintf prototype is in <stdio.h> 4/ 

10C #detine ]AVE SNZRINIF PRCTCO 1 

101 /* Sefine if enet/if dl.53» defines struct sockazdr dl */ 
102 #deEine HAVE SOCKADDR DL STRUCT 1 

103 /* define if socket address structures have lencth fields */ 
104 Bdefine HAVE SOCKADOR SA LEN 1 


ius /* Lefine if vou have the socka-msrk function. */ 
10€ #define HAVE SOCKATMARK 1 


10) /* define if sockatmark zrctotype ie in «syg/socket.a» */ 
10E &define HAVE SOCKATMARK FRCCO 1 


co 
N 


/* Def-re if you have the catdis-hy header file. */ 
Zctine HAVE_STDIC_H 1 


/* Define if you have the <stdlib.h> header file. */ 
#2efine HAVE STDLIB H 1 


/* Define if you have the cstrirgs.h» header file. */ 
#iefine HAVE 3TRING3 H 1 


/* Defireé if you have the <string.h> header žile, */ 
fefine HAVE S'URING H 1 


/* Define if you have the «gtropcs.h» header file. */ 
/^ dome! HAVE STROPTS H */ 


/* Del re iT ilr wto is member of struct. ifreeq. */ 


| &Scfine HAVE STRJCT IFREQ IFR MIU 1 
/* Define it the system has the type struct sockaddr storage. 


Zefine HAVE STRICT SOCKADDR STORAGE 1 


/* Define if you have the <-sys/svent.n> header tile. */ 
define HAVE 3Y3 FVZNT H 1 


| J* Define if you have the «sys/filio.h» header file. */ 


&Gefine HAVE SYS FILIO H 1 


/* Define if you have the «eyc/ioctl.h» header file, */ 
d$iefine HAVE SYS IOCTL H 1 


/* Define if you have the esys/se sct h> header file. */ 
ülefine HAVE 3YS SELECT H 1 


/* Dsf:re i? you have the «-aya/socket.hz header file. */ 
Zetine HAVE SYE SOCKET H 1 


/* Define if you have the «oyo/cockio.h» header file. */ 
define HAVE SYS SOCKIS H 1 


/* Define if yom have the «sys/stat-.h> header file. */ 
#Sefine HAVE 3YS STAT E 1 


/* Detire it you have the «sys/sysctl..h» header file. "/ 


B fiáefine HAVE SYS SYsSCIL H L 


/* Define if you have the <sys/tima.h> haada> file. */ 
define HAVE SYS TIME F 1 


J^ nef re if you have the ecsays/types h> header Tile. */ 
#ecfine HAVE 3Y5 TYPES H 1 


/* Define if you have the <aya/uio.h> header file. */ 
ĉefine HAVE SYS UIO H 1 


/* Define if you have the -sys/vn.h* header žile. */ 
#aefine HAVE 3Y3 UM H 1 

/* Define i= you have the «sys/wa-Lt.h» heade- file. */ 
ĉefine HAVE SYS WAIT E 1 

/* Define if «time.n» defines etruct Linecpsc */ 
#ovfiiw HAVE TIMESPZC STRUCT 1 


[^ Def:re if you have the ctime.h» header file. */ 
#3efine HAVE TIME H 1 


co 
co 


/* Define if you have the 
(define HAVE UNISTD H 1 
/* Define if ym have the 
define HAVE VSHERINIF 1 
/* eiae if you hawe Lhe 
/* #undef HAVE XTL H */ 


/* Detine if you have the 
/* Wundef HAVE XTI INBT H 


<unistd.h> header file. */ 


vsnprintf functian, */ 


exLi h> header file. 4/ 


axti inst.h> header Eile. 4/ 
ef 
+ 


/* Dežine if the system sugports Ipva */ 


define TPY4 二 


/* Define if the cyctem cusporte IPv6 */ 


define TPYE = 


/* Dezine it the cyctem cucportec IPvi */ 


4define TPv4 二 


/* Dezine if the system supports IPvG */ 


fine Iw - 


/* Deziae if the system supports IP Multicsst */ 


4#define MCAST 1 


f* the aize af the aa_femily field 


/* jtundef SA FAMILY T */ 


f/* ne^iae if you have the 
3dctinec STDC HEADERS 1 


/* Define if you can safely include both <sys/time.h> and <time.h>. */ 


ANST C header files. */ 


#dcfine TIME WITE EYE TIME 1 


/* Define if the system surcpo-ts -NIX domain sockets */ 


4define UNIXDOMAIN 1 


/* Dezine if the cyctem sucporte .NIX domain sockete */ 


define UNT¥aemain 1 


/* 16€ bit simsd type */ 
£^ dundef int*8 t af 


/* 32 bit sionesd type */ 
/* d$undef int32 b #7 


/* the tyne of the aa femily struct element */ 


/* #undef sa family t */ 


/* unsigned integer type of the result of the sizecf operator */ 


/* $undef size_t */ 


/* a tyre appropria-e for 
/* #undet cockiler t */ 


/* decine to — ss family if sockaddr s-orage nas that ins-esd cf ss family */ 


(* #undet ss tsmily */ 


/* a gignad tyre appropriate for a count of bytes cr an error indication */ 


/* #undef ssize t */ 


/* acalar type */ 


addzess */ 


in a socker address structure */ 


196 


197 
193 


199 
200 


201 
202 
203 
204 


édefine t scalar - int32 t 


i$. 


unsigned scalar type */ 


$define t uscalar t uirt32 t 


/ 
fs 


j+ 
fe 


fs 


16 bit unsigned type */ 
#undef uin-15 - */ 


32 bit unsigned type */ 
Wundef uin-32 c My 
/* -bit unsigned type */ 
Hundsf uinz8 t */ 
sparctd-untnown-fresheds, F'corfig.l 


图 D-2 FreeBSD 5.1 系 统 的 config , h 头 文件 


D.3 PRETE HR 


我 们 目 行 定义 了 一 组 用 于 人 贯穿 全 书 处 理 出 错 条 件 的 错误 处 理 了 画 
数 。 如 此 定义 和 使 用 这 组 错误 处 理 函 数 的 原因 是 我 们 可 以 如 下 所 示 使 
用 一 行 C 代 码 写 出 错误 处 理 过 程 : 


if (出 错 条 件 ) 


err_sys( 带 任意 数目 参数 的 printf 格 式 串 ; 


而 不 是 如 下 所 示 使 用 多 行 C 代 码 : 


if (出 错 条 件 ) { 
char buff[200]; 
snprintf(buff, sizeof(buff), "UP IEXXXHAXBprintff 


perror(buff); 
exit(1); 


34i AY Fa RANE Ew BE HH ANSI C 的 可 变 长 度 参 数列 表 机 制 ， 具 体 
细节 参见 [Kemighan and Ritchie 1988] 877.31 ° 


图 D-3 列 出 了 各 个 错误 处 理 函 数 之 间 的 差异 。 如 果 全 局 整数 
daemon_proc 不 为 0， 出 错 消 息 惑 按 指定 的 级 别传 递 给 sys1og， 否 
则 出 错 消息 显示 在 标准 错误 输出 上 。 


ES 2 strerror (errno)? zs Du in | eyslog?2A p 
err dump | 是 abort (); | LOG_ERR 
err_msg TT return; LOG_INFO 
err quit a exití1); LOG ERR 
err ret 是 return; LOG INFO 
err_sys 是 exití1); LOG ERR 


图 D-3 ”标准 错误 处 理 函 数 汇总 


图 D-4 给 出 了 图 D-4 中 的 5 个 函数 。 


(<) 
© 


-N gs 


> 


#include "unp.h" 
#include sstdarg. ho 
include esyslag. ho 
int daemon proc; 


/* BNSI C header file +/ 


/^ for syslos() 4/ 


/* sec nonzero by daemon init() */ 


libfervor.c 


co 
=. 


static void err Zoiz/int, int, const char *, va list); 


/* Nenfatal error related to system call 
* print message ard return t/ 


void 
err rct(const char *fmt, ...! 
( 

va_list ep; 


va stzrt (ap, *mnt]; 

err doit(1, LOG_INFO, tmt, ap): 
va sni(ap); 

return: 


! 


/* Fetel error relatec to system call 
* print meesace and terminate */ 


wid 
err eve(ccnet char *fmt, ...) 


( 


và list ap; 


va start(ap, Int); 

err doit(1, LOG_ERR, fut, ap); 
va_snd(ap); 

exit tl}; 


! 


/* Patel error relateé to system call 
+ Prinz message, dump core, and terminate */ 


T 


wid 
err dump ¡const crar *fmt, ...} 
va liec spi 
va slart (ap. ual}; 
err doit(1, LOG_ERR, fmt, api; 
va -nJ(api) ; 
abort (}; /* dump core ard 
exit (1); /* shouldn't get 
} 


/* Nonfatal error unrelated to system call 
* Print message and return */ 


void 
err usg(ccnst char *fmt, ...) 


va_list ep; 


va start (ap, imt); 
er r duit (0, TOG_TNFO, fut, ap): 
va en3(ap): 


return; 


} 


/* Felel ezror uniela.el tc syslen call 
+ Prinz message and terminate */ 


serminate */ 
bere */ 


co 
N 


53 void 
54 err_quit [const char “fyt, ...) 


ss ( 

So va list ap; 

57 va start[ap, tmz); 

53 err doit(O, LOG ERR. frt, ap'; 
53 va endíap) ; 

63 exir(1:; 

él) 


62 /+ Print meseage and return to caller 
63 * Caller specifies "erraoflag" ard "level" */ 


64 sLatic void 

65 arr doit (int errnoflag, int level, const char *fmt. va list ap) 
es { 

67 inz errno_save, n; 

63 char buf [MAXLINE + 11; 


63 Prrnd save s ermo; /* value caller might want printed */ 
73 Hifdef HAVE VSNPRINIF 

71 vonprintt(butf, MAXLINE, Emt, æi; /* sate */ 

72 Welse 

73 vsprintf (buf, fmt. ap}; /* not safe */ 

74 Hendif 

75 n = gtrlen;zuf); 

75 if lerrroflag! 

77 srprintf (but ~ n, MAXLINE - n, ": às", s-rer-oríerroo save)!; 
78 strcat (buf, 'n"): 

78 if (daemon proc) | 

82 SyGlogilevel, but); 

81 ) else { 

82 fflusnistdout!; /* in cass stdout and stderr are the seme */ 
g3 fpurs (buf, scderr); 

81 ftfluenictderr) ; 

85 } 

85 return; 

a?) 


ibierror.c 


图 D-4 dil TEPER hE EG BC 


附录 E ” 精 选 习题 答案 
第 1 章 


1.3 在 Solaris 上 我 们 得 到 


solaris % daytimetcpcli 127.0.0.1 
socket error: Protocol not supported 


要 找 出 有 关 这 个 错误 的 详细 信息 ， 我 们 首先 在 <sys/errno.,h> 头 文件 中 使 
用 grep 查 找 字 符 串 Protocol not supported ° 


solaris % grep 'Protocol not supported' /usr/include/sys/errno.h 
#define EPROTONOSUPPORT 120 /* Protocol not supported */ 


这 就 是 由 socket 返 回 的 errno 值 。 我 们 然后 查看 手册 页 面 : 


solaris % man socket 


大 多 数 手 册页 面 在 将 近 结 束 处 形 如 “Errors” 的 标题 下 给 出 这 个 错误 的 额外 信 
已， 不 过 有 些 简洁 。 


1.4 我 们 把 第 一 个 声明 改 成 : 


Int sockfd, n, counter = 0; 
再 作为 while 循 环 的 第 一 个 语句 加 上 如 下 行 : 


counter++; 


最 后 在 结束 之 前 加 上 如 下 行 : 


printf("counter = %d\n", counter); 


所 显示 的 值 总 是 1。 
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15 “我们 声明 一 个 名 为 i 的 Int 变量 ， 再 把 write 调用 改 为: 


for (i = 0; i < strlen(buff); i++) 


Write(connfd, &buff[i], 1); 


其 结果 随 客户 主机 和 服务 器 主机 而 定 。 如 果 客 户 和 服务 器 运行 在 同一 个 主 
机 上 ， 那 么 计数 器 值 通常 是 1， 意 味 着 尽管 服务 器 调用 了 26 次 write， 所 写 出 数 
据 也 仅 由 客户 的 一 次 read 返 回 。 然 而 如 果 客 户 运 行 在 Solaris 上 而 服务 器 运行 在 
BSD/OS 3.0 上 ， 那 么 计数 器 值 通常 是 2。 如 果 监 视 以 太 网 上 的 分 组 ， 我 们 发 现 第 
一 个 字符 自 成 一 个 分 组 发 送 ， 剩 余 25 个 字符 包含 在 下 一 个 分 组 内 发 送 。 (我 们 
在 7.9 节 就 Nagle 算 法 的 讨论 解释 了 如 此 行为 的 原因 。) 相反 ， 如 果 客 户 运行 在 
BSD/OS 3.0 上 而 服务 器 运行 在 Solaris 2.5.1 上 ， 那 么 计数 器 值 是 26。 如 果 监 视 以 
太 网 上 的 分 组 ， 我 们 发 现 每 个 字符 自 成 一 个 分 组 发 送 。 


本 例子 的 目的 在 于 强调 不 同 的 TCP 对 数据 做 不 同 的 处 理 ， 我 们 的 应 用 程序 必 
须 做 好 作为 字 节 流 读 入 这 些 数 据 的 准备 ， 直 到 过 上 数据 流 林 尾 。 


第 2 章 


24 访问 http://www.iana.org/numbers.htm， 找 到 名 为 “IP Version Number” 的 
注册 处 ， 我 们 看 到 版 本 0 是 保留 的 ， 版 本 1 一 3 未 曾 分 配 ， 版 本 5 是 网 际 网 流 协 议 


(Internet Stream Protocol) 。 


2.2 ”所 有 REFC 都 可 以 通过 电子 邮件 、 匿 名 FTP 或 Web 免 费 获取 。 起 始点 之 一 
是 http://www.ietf.org。 目录 ftp://ftp.isi.edu/in-notes 是 一 个 存放 RFC 的 位 置 。 可 以 
从 取得 当前 RFC 索 引 开 始 ， 它 通常 是 文件 rfc-index.txt (也 可 以 取得 它 的 
HTML 版 本 http://www.rfc-editor.org/rfc-index.html) 。 使 用 某 种 形式 的 编辑 器 搜索 
RFC 索 引 (参见 上 一 个 习题 的 解答 ) 查找 “Stream” 一 词 ， 我 们 发 现 RFC 1819 定 义 
了 网 际 网 流 协议 的 版 本 2。 无 论 何 时 查找 可 能 是 由 某 个 RFC 说 盖 的 信息 ， 别 坏 了 
先 搜 索 RFC 索 引 。 


23. ”对 于 IPv4 这 个 黑 认 值 产 生 576 字 节 的 IP 数 据 报 (其 中 IPv4 首 部 占用 20 字 
p? E TRUE R| F5365F B AVTCP ial) ， 这 是 IPv4 的 最 小 重组 组 
冲 区 大 小 。 


24 ”本 例子 中 执行 主动 天 闭 操作 的 是 服务 器 而 不 是 客户 。 


2.55 令 有 牌 环 网 上 的 主机 不 能 发 送 超 过 1460 字 节 的 数据 ， 因 为 它 接收 到 的 
MSS 是 1460。 以 太 网 上 的 主机 可 以 发 送 最 多 4096 字 节 的 数据 ， 但 是 为 了 避免 分 
片 ， 它 不 会 超过 外 出 接口 ( 即 以 太 网 ) 的 MTU。TCP 净 荷 不 能 超过 由 对 端 宣告 
的 MSS， 但 是 净 答 小 于 这 个 数量 的 TCP 分 节 总 是 可 以 发 送 的 。 


We 


2.6 Assigned Numbers 网 页 (http://www.iana.org/numbers.htm) 中 
的 “Protocol Numbers” 注 册 处 给 出 OSPF 的 协议 号 为 89。 


2.7 ”选择 性 确认 只 是 表明 由 选择 性 确认 消息 反映 的 序列 号 所 涵盖 的 数据 已 
被 接收 ， 而 素 积 确认 表明 由 累积 确认 消 轧 中 的 序列 号 指示 的 所 有 以 前 的 数据 都 
已 被 接收 。 如 果 从 发 送 缓冲 区 中 基于 选择 性 确认 释放 数据 ， 那 么 系统 只 能 释放 
确切 被 确认 的 数据 ， 而 不 能 释放 之 前 或 之 后 的 任何 数据 。 
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第 3 章 


3.1 C 中 轴 数 不 能 改变 按 值 传递 的 参数 的 值 。 要 让 被 调用 的 画 数 修改 由 调用 
者 传 入 的 某 个 值 ， 调 用 者 必须 传递 指向 这 个 竺 修改 值 的 一 个 指针 。 


3.2 ”指针 必须 按 所 读 或 所 写 的 字 节 数 增长 ， 但 是 C 不 允许 void 指针 如 此 增 
长 〈 因 为 C 编 译 器 不 知道 void 指针 指向 的 数据 类 型 ) 。 


第 4 章 


41 看 一 下 除 INADDRANY ( 它 的 各 位 全 为 0;” 和 INADDR_NONE 〈 它 的 各 位 
全 为 1) 外 以 INADDR 打 头 的 各 个 常 值 的 定义 。 璧 如 说 D 类 多 播 地 址 
INADDR_MAX_LOCAL_GROUP 的 定义 是 90xe00000ff， 其 注释 是 “224.0.， 它 显 
然 是 按 主机 字 节 序 定义 的 。 


42 下 面 是 在 connect 调 用 之 后 新 添加 的 若干 行 : 


len = sizeof(cliaddr); 
Getsockname(sockfd, (SA *) &cliaddr, &len); 


printf("local addr: %s\n", 
Sock ntop((SA *) &cliaddr, len)); 


这 要 求 声明 len 为 socklen_t 变 量 并 声明 cliaddr 为 struct 
sockaddr_in 变 量 。 注 意 getsockname 的 值 -结果 参数 (len) 必须 在 调用 之 
前 初始 化 成 由 第 二 个 参数 所 指 癌变 量 的 大 小 。 涉 及 值 -结果 参数 的 最 常见 编程 错 
误 就 是 态 记 了 这 样 的 初始 化 。 


43 “ 子 进 程 调 用 close 时 引用 计数 从 2 递 诚 为 1， 因 此 不 会 加 客户 发 送 FIN。 
以 后 当 父 进程 调用 close 时 引用 计数 递减 为 0， 于 是 发 送 FIN ° 


44 _ accept 返回 EINVAL， 因 为 它 的 第 一 个 参数 不 是 一 个 监听 套 接 字 描 述 


A. 


Tp 


45 不 调用 bind 的 话 ，1Listen 调 用 赋予 监听 套 接 字 一 个 临时 端口 。 


第 5 章 


5.1 TIME_WAIT 状 态 的 持续 时 间 应 该 在 1 分 钟 到 4 分 钟 之 间 ， 前 提 是 MSL 在 
30 秒 钟 到 2 分 钟 之 间 。 


915 


5.2 ”把 一 个 二 进 制 文件 作为 客户 的 标准 输入 时 我 们 的 客户 /服务 器 程序 并 不 
工作 。 假 设 前 3 个 字 节 为 二 进 制 数 1、 二 进 制 数 0 和 一 个 换行 符 。 图 5-5 中 fgets 调 
用 最 多 读 入 MAXLINE-1 个 字符 ， 除 非 碰 到 换行 符 或 已 到 达 文 件 尾 而 提前 返回 。 
在 本 例子 中 它 将 读 入 前 3 个 字符 ， 然 后 以 一 个 空 字 市 结束 待 返回 的 字符 串 。 然 而 
图 5-5 中 strJlen 调 用 返回 的 是 1， 因 为 它 只 计 到 第 一 个 空 字 节 。 客 户 于 是 只 把 第 
一 个 字 世 发 送 给 服务 器 ， 导 致 服务 器 阻塞 在 readline 调 用 上 ， 等 待 一 个 换行 
符 。 客 户 也 阻塞 在 等 待 服务 器 的 应 答 上 。 这 就 是 所 谓 的 死 锁 (deadlock) : 两 个 
进程 都 阻塞 在 等 竺 因 对 方 原 因而 永远 不 会 到 达 的 事件 上 。 这 里 的 问题 是 fgets 
以 一 个 空 字 世 表征 所 返回 数据 的 结尾 ， 因 此 它 读 入 的 数据 不 能 含有 任何 空 字 
TJ o 


5.3 ”Telnet 把 输入 行 转换 成 NVT ASCII (TCPv1Hg26.4 5) ， 意 味 着 以 CR 
( 回 车 符 ) 后 跟 LF (换行 符 ) 的 双 字 节 序 列 终止 每 一 行 。 而 我 们 的 客户 程序 只 
加 一 个 换行 符 。 尽 管 如 此 ， 我 们 仍然 可 以 使 用 Telnet 客 户 与 我 们 的 服务 器 通信 ， 
因为 我 们 的 服务 器 回 射 每 个 字符 ， 包 括 每 个 换行 符 之 前 的 回 车 符 。 


5.4 ”连接 终止 序列 的 最 后 两 个 分 节 并 不 发 送 。 我 们 杀 掉 服务 器 子 进程 之 后 

(在 客户 输入 “another line” Z Bil) ， 客 户 疝 服务 器 发 送 数 据 导致 服 务 器 TCPH 啊 应 

以 一 个 RST。 这 个 RST 使 得 连接 中 止 ， 并 防止 连接 的 服务 器 端 (执行 主动 关闭 的 
那 一 端 ) 经 历 TIME_WAIT 状 态 。 


55 没有 什么 变化 ， 因 为 在 服务 器 主机 上 新 启动 的 服务 器 进程 创建 一 个 监 
听 套 接 字 就 等 待 新 的 连接 请 求 的 到 达 。 我 们 在 步骤 3 发 送 的 是 需 进 入 某 个 
ESTABLISHED 状 态 TCP 连 接 的 数据 分 节 ， 而 新 局 动 的 服务 需 在 其 监听 套 接 字 上 
绝 看 不 到 这 些 数据 分 节 ， 因 此 服务 器 主机 的 TCP 对 它们 的 响应 仍然 是 RST。 


5.6 ”图 E-1 给 出 了 这 个 程序 。 在 Solaris 上 运行 它 产 生 如 下 输出 : 


- topeliserwisigpipe.c 


1 #ineclude "up.h" 

2 void 

3 sig pipe(int signo) 

4 

5 printz("SICPIPE received An"): 
6 rel urn 

7} 

B int 


S wainlint &-gc, cher **argv) 
10 | 


11 int eockfd; 

12 struct sockaddr in servaddr; 

13 it (argc != 2) 

14 srr quit('usage: tcpcl- «IPaddress»*): 

15 BOCkfd = Sccket (AF INET, SOCK STREAM, 0); 

16 bzero(&servaddr, sizeo=iservasdr!); 

17 servedcr.sin fanily z AP INET; 

18 servaðćr.sin port = htons(13! ; /* daytime server */ 
19 Inct_pton(AP_INET, àrqv|1], &servaddr.sin_addr) ; 

20 Signal (SIGPIEE, sig_pipel; 

21 Canuectí(so-kfd, (SA *) &servadde, sizeof iservacdr!): 
22 sleep (2}; 

23 Write (socktd, "hello", Sł; 

24 sleep (2! ; 

25 Write(weockfd, "world", St; 

26 exi-i0); 

27 J 


Icocliserv/tsigpipe.c 


RJE-1 产生 SIGPIPE 


solaris % tsigpipe 192.168.1.10 
SIGPIPE received 
write error: Broken pipe 


第 一 个 2 秒 钟 的 Sleep 用 于 让 daytime 服 务 器 发 送 应 答 并 关闭 它 的 连接 所 在 
端 。 第 一 个 write 导 致 发 送 一 个 数据 分 节 到 服务 器 ， 服 务 器 则 响应 以 RST (因为 
daytime 服 务 器 已 经 完全 关闭 了 它 的 套 接 字 ) 。 注 意 TCP 允 许 我 们 继续 写 出 到 一 
个 已 收 到 FIN 的 套 接 字 。 第 二 个 sleep 让 客户 接收 到 服务 器 的 RST， 于 是 第 二 个 
write3 引 | 发 SIGPIPE 信 和 号。 既然 信号 处 理 函 数 返 回 主 控 制 流 ，write 于 是 返回 
一 个 EPIPE 的 错误 。 


5.7 ”假设 服务 器 主机 支持 弱 端 系统 模型 (weak end system model, 48.877 
讲解 ) ， 那 么 一 切 正 常 。 也 就 是 说 即使 目的 IP 地 址 是 右 端 数 据 链 路 的 IP 地 址 ， 服 
务 器 主机 也 会 接受 到 达 左 并 数据 链 路 的 外 来 IP 数 据 报 (本 例子 中 它 承 载 一 个 TCP 
分 节 ) 。 我 们 可 以 如 下 测试 这 一 点 ， 在 主机 linux (图 1-16) 上 运行 服务 器 ， 然 
后 在 主机 solaris 上 启动 客户 ， 不 过 给 客户 指定 的 是 服务 器 主机 的 男 一 个 IP 地 
HE (206.168.112.96) 。 连 接 建 立 之 后 如 果 在 服务 器 主机 上 运行 netstat， 我 们 
将 看 到 该 连接 的 本 地 IP 地 址 是 来 自 客户 SYN 的 目的 人 P 地 址 ， 而 不 是 SYN 到 达 数 据 
链 路 的 人 P 地 址 (这 跟 我 们 在 4.4 节 提 太 的 一 样 ) 。 


5.8 ”我们 的 客户 运行 在 小 端 字 节 序 的 Intel 系 统 上 ， 那 儿 32 位 整数 值 1 按 图 E- 
2 所 示 格 式 存放 。 


地 址 : A+3 A+2 4+1 A 


图 E-2 ”32 位 整数 值 1 的 小 端 字 节 序 格式 表示 


916~ 
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这 4 个 字 节 按 A、A+1、A+2 和 A+3 的 顺序 通过 套 接 字 发 送 ， 然 后 以 如 图 E-3 所 
示 的 大 端 字 节 序 格式 存放 。 


A+] A+2 


图 E-3 来自 图 E-2 的 32 位 整数 以 大 端 字 节 序 格式 表示 

值 0x01000000 就 是 16777216。 类 似 地 ， 由 客户 发 送 的 整数 2 将 被 服务 器 解 
释 成 0X02000000 即 33554432。 这 两 个 整数 的 和 是 50331648 即 9x93000000。 
服务 器 把 这 个 大 端 字 节 序 值 发 送 给 客户 后 ， 客 户 把 它 解释 成 整数 3 。 


然而 32 位 整数 值 -22 在 小 端 字 节 序 系统 上 如 图 E-4 表 示 ， 采 用 的 是 负数 的 二 进 
制 补 码 表示 。 


pee De Te 
A+3 A+2 A+! A 


图 E-4 ”32 位 整数 值 -22 的 小 端 字 节 序 格式 表示 


它 在 大 端 字 节 序 服务 器 主机 上 被 解释 成 0oxeaffffff 即 -352321537。 类 
似 地 ，-77 的 小 端 字 节 序 表示 是 09xffffffb3， 但 是 在 大 端 字 节 序 服务 器 主机 上 
却 表示 成 Ooxb3ffffff 即 -12750668417。 服 务 器 上 的 这 两 个 整数 相 加 的 结果 是 
0x9effffe 即 -1627389954。 这 个 大 端 字 厄 序 的 值 通过 套 接 字 发 送 给 客户 后 
ee 它 就 是 我 们 的 例子 所 显 
JR S | o 


59 ”技术 路 线 是 正确 的 (把 二 进 制 值 转换 成 网 络 字 节 序 表示 ) ， 但 是 不 能 
使 用 hton1 和 ntoh1 这 两 个 函数 。 尽 管 这 两 个 函数 中 的 ] 曾 经 表意 "long” (长 整 
数 ) ， 它 们 却 只 是 操作 在 32 位 整数 上 (3.43) 。64 位 系统 上 一 个 长 整数 可 能 占 
据 64 位 ， 这 两 个 函数 束 不 能 正确 工作 了 “。 有 人 也 许 定义 hton64 和 ntoh64 这 两 
个 函数 来 解决 本 问题 ， 但 是 它们 在 使 用 32 位 表示 长 整数 的 系统 上 又 不 能 工作 © 


5.10 第 一 种 情形 下 服务 器 将 永远 阻塞 在 图 5-20 的 readn 中 ， 因 为 客户 发 送 
的 是 2 个 32 位 值 ， 但 是 服务 器 等 待 的 却 是 2 个 64 位 值 。 这 两 个 主机 之 间 对 换 客户 
和 服务 器 将 导致 客户 发 送 2 个 64 位 值 ， 但 是 服务 器 只 读 入 第 一 个 64 位 ， 并 把 它 解 
释 成 2 个 32 位 值 。 第 二 个 64 位 值 仍然 在 服务 器 的 套 接 字 接收 缓冲 区 中 。 服 务 器 往 
回 写 出 1 个 32 位 值 ， 但 是 客户 却 仍然 永远 阻塞 在 图 5-19 的 readn 中 ， 等 待 读 入 1 个 
64 位 值 。 


5.11 IP 路 由 功能 查看 目的 IP 地 址 (服务 器 主机 的 IP 地 址 ) ， 搜 索 路 由 表 确 
定 外 出 接口 和 下 一 跳 (TCPv1 第 9 章 ) 。 外 出 接口 的 主 IP 地 址 用 作 源 IP 地 址 ， 前 
提 是 该 套 接 字 尚未 绑 定 某 个 本 地 IP 地 址 。 
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第 6 章 
61 这 个 整数 数组 包含 在 一 个 结构 中 ， 而 C 是 允许 结构 跨 等 号 赋值 的 。 


62 如果 select 告 诉 我 们 某 个 去 接 字 可 写 ， 该 套 接 字 的 发 送 绥 促 区 束 有 
8192 字 节 的 可 用 空间 ， 但 是 当 我 们 以 8193 字 节 的 缓冲 区 长 度 对 这 个 阻塞 式 套 接 
字 调 用 write 时 ，write 将 会 阻塞 ， 等 竺 最 后 1 个 字 节 的 可 用 空间 。 对 阻塞 式 套 
接 字 的 读 操作 只 要 有 数据 总 会 返回 一 个 不 足 计 数 (short count) ， 然 而 对 阻塞 式 
套 接 字 的 写 操 作 将 一 直 阻 塞 到 所 有 数据 都 能 被 内 核 接受 为 止 。 可 见 当 使 用 
， 我 们 必须 把 该 套 接 字 预先 设置 成 非 阻 塞 
以 避免 阻塞 。 


6.3 ”如 果 两 个 描述 符 都 可 读 ， 那 么 只 执行 第 一 个 测试 ， 它 测试 的 是 套 接 字 
描述 符 。 不 过 这 么 做 并 没有 导致 客户 程序 不 能 工作 ， 它 只 是 降低 了 效率 而 已 。 
这 束 是 说 ， 如 果 select 返 回 值 表明 两 个 描述 符 均 可 读 ， 那 么 第 一 个 if 语 句 为 
真 ， 导 致 客户 从 套 接 字 readline 并 fputs 到 标准 输出 。 下 一 个 if 语 句 却 被 跳 


过 (就 因为 我 们 在 这 个 if 关 键 词 之 前 所 冠 的 else 关 键 词 ) ， 不 过 select 接 着 
再 次 被 调用 ， 它 马上 发 现 标准 输入 可 读 ， 于 是 立即 返回 。 这 里 的 关键 概念 是 清 
除 “ 标 准 输入 可 读 ” 条 件 的 不 是 select 的 返回 ， 而 是 从 标准 输入 真正 地 读 入 。 


6.4 使 用 getr1Limit 函 数 取 得 RLIMIT_NOFILE 资 源 的 当前 值 ， 然 后 调用 
setrlimit 把 当前 软 限制 (rlim cur) 设置 成 硬 限 制 (rlim max) 。 举 例 
来 说 ，Solaris 2.5 上 描述 符 数 目的 软 限 制 是 64， 但 是 任何 进程 都 可 以 把 它 增 长 到 
默认 的 硬 限制 1024。 


getrlimit 和 setrlimit 不 属于 POSIX.1， 但 是 在 Unix 98 中 却 是 必需 的 。 
6.5 “服务 器 应 用 进程 持续 向 客户 发 送 数据 ， 客 户 TCP 确 认 后 扔 掉 它 们 。 


6.6 ”以 参数 SHUT_RDWR 或 SHUT_WR 调 用 shutdown 总 是 发 送 FIN， 而 
close 只 在 调用 时 描述 符 引 用 计数 为 1 的 条 件 下 才 发 送 FIN 。 


67 read 返回 一 个 错误 ， 我 们 的 Read 包 囊 函 数 于 是 终止 服务 器 。 服 务 器 
不 应 该 如 此 脆弱 。 注 意 我 们 在 图 6-26 中 处 理 了 这 种 情况 ， 尺 管 即便 这 样 的 代码 还 
是 不 够 健壮 。 考 虑 客户 和 服务 器 之 间 起 失 连 接 的 情况 ， 服 务 器 某 个 响应 的 发 送 
党 试 最 终 发 生 超 时 ， 返 回 的 错误 可 能 是 ETIMEDOUT ° 


通常 服务 右 不 应 该 因为 这 样 的 原因 而 中 止 。 它 应 该 登记 错误 ， 关 闭 出 错 套 
接 字 ， 并 继续 服务 其 他 客户 。 对 于 像 这 样 由 单个 进程 来 应 付 所 有 客户 的 服务 占 
来 说 ， 簿 单 中 止 的 错误 处 理 方式 是 难以 接受 的 。 然 而 如 采 服 务 右 是 由 一 个 子 进 
程 来 应 付 仅仅 一 个 客户 ， 那 么 中 止 某 个 子 进程 并 不 会 影响 父 进程 (我们 假定 它 
处 理 所 有 的 新 连接 并 派生 子 进程 ) 和 服务 其 他 客户 的 任何 其 他 子 进程 。 
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7.2 ”图 E-5 给 出 了 本 习题 的 解答 之 一 。 我 们 去 掉 了 用 于 显示 由 服务 器 返回 的 
数据 串 的 那些 语句 ， 因 为 本 例子 用 不 着 这 些 值 。 


H 


首先 声明 这 个 程序 没有 “唯一 正确 ”的 输出 ， 其 结果 随 系统 而 变化 。 有 些 系 


7 


1 B-uclude "ur p.h" 

2 Hunclude «nacinst/tcp.h- /* for TCE MAXSEG */ 

3 int 

4 wain(int &-z2c, char **a-zgv) 

51 

6 int sockfd, rcvbuf, mss; 

了 ecexlen t ler; 

8 struct sockacdr in servacdr, 

9 if (argc !e 2; 

10 err zuit("usage: rcvbuf «IPaddresss"): 

li scektd = Sockct (AF INET, SOCK STREAM, 0}; 

12 len = siseot (rcvzuf); 

13 GeLsockop. (suckfd, SCL SOCKET, SO RCVBUF, &rcvbuf, &lea); 
14 len = sizeo= (mss); 

15 Getsockoptiecckid, IEPHUTU TCP, "CP MAXSEG, &mse, &.en); 
16 printfi'defaults: 20 RCVBUP = $à, M28 = %d\n", rcvzuf, mas); 
17 bzero(&servacdr, sizeofise-va3dr]); 

18 servadd-.sin fsmily = AF INET; 

19 servaddr.cin port = atono!ls;; /* daytime cerver */ 
20 Inet_pton(AP_INET, argv/il, &servadir.sin adi-) 

21 CunmecL(sockfd, (SA *) &se-vaddr, sizeo[iservaddr]); 

22 len = sizeo*(rcv^ouf); 

“3 Getzockopc(eccktd, SUL SUCKET, SO RCVBUF, Erovout, &len): 
24 len = sizeof (mss) ; 

25 Get sockapt (sockfd, IPPROTO TCP, "CP MAXSEG, &mss, &-en) ; 
26 printfi'afrter connect: SO_RCVBUF = bd, MSS = san", revbuf, mes); 
27 exitíJg): 

28 : 


图 E-5 ”在 连接 建立 前 后 显示 套 接 字 接 收 缓冲 区 大 小 和 MSS 值 


sackopt/rcvbuj.c 


sockopt/revbri.c 


Zi 


( 尤 如 Solaris RE PAA) 总 是 返回 0 值 的 套 接 字 缓 冲 区 大 小 ， 使 得 我 们 无 法 查 


看 该 值 在 连接 前 后 有 什么 事 发 生 。 


至 于 MSS， 在 connect 之 前 显示 的 值 是 实现 的 默认 值 (通常 是 536 或 
512) ， 在 connect 之 后 显示 的 值 则 取决 于 可 能 有 的 来 自 对 端的 MSS 选 项 。 举 例 
来 说 ， 本 地 以 太 网 上 connect 之 后 的 值 可 能 是 1460。 然 而 connect 某 个 远程 网 
络 上 的 一 个 服务 器 主机 之 后 显示 的 MSS 值 可 能 类 似 默 认 值 ， 除 非 你 的 系统 支持 
路 径 MTU 发 现 功 能 。 如 果 可 能 的 话 ， 在 程序 运行 期 间 运 行 一 个 像 tcpdump (C.5 
节 ) 这 样 的 工具 ， 以 查看 来 自 对 端的 SYN 分 节 中 的 真正 MSS 选 项 。 


至 于 套 接 字 接收 缓冲 区 的 大 小 ， 许 多 实现 在 连接 建立 之 后 把 它 向 上 舍 入 成 
MSS 的 倍数 。 碍 看 连接 建立 之 后 套 接 字 接收 缓冲 区 大 小 的 另 一 个 方法 是 使 用 像 


tcpdump 这 样 的 工具 监视 分 组 ， 观 察 TCP 的 通告 窗口 (advertised window) 


7.3 “分 配 一 个 名 为 1ing 的 Linger 结 构 并 如 下 初始 化 它 : 


str_cli(stdin, sockfd); 


ling.l onoff = 1; 


ling.l linger = 0; 
Setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &ling, sizeof(ling)); 


exit(0); 


这 应 该 使 得 客户 TCP 以 一 个 RST 而 不 是 正常 的 4 分 和 交换 终 目 连接。 服务 器 
子 进 程 的 read1Line 调 用 返回 ECONNRESET 错 误 ， 所 显示 的 消息 如 下 : 


尽管 执行 主动 关闭 的 是 客户 ， 它 也 不 应 该 经 历 TIME_WAIT 状 态 。 


74 第 一 个 客户 调用 setsockopt、bind 和 connect。 如 果 第 二 个 客户 在 
第 一 个 客户 调用 bind 和 connect 之 间 调 用 bind， 那 么 它 将 返回 EADDRINUSE 
些 误 。 然 而 一 旦 第 一 个 客户 已 连接 到 对 端 ， 第 二 个 客户 的 bind 束 正常 工作 ， 因 
为 第 一 个 客 尸 的 套 接 字 当 时 处 于 已 连接 状态 。 处 理 这 种 竞争 状态 的 唯一 办 法 是 
让 第 二 个 客户 在 bind 调 用 返回 EADDRINUSE 错 误 的 情况 下 再 党 试 调用 bind 多 
次 而 不 是 一 返回 该 错误 就 放弃 。 


75 ”我 们 在 支持 多 播 的 一 个 主机 (MacOS X) 上 运行 这 个 程序 了 。 


macosx % sock -s 9999 & 以 通 配 地 址 启动 第 一 个 服务 器 
[1] 29297 

macosx % sock -s 172.24.37.78 9999 不 使 用 -A 尝试 启动 第 二 个 服务 器 
can’ t bind local address: Address already in use 
macosx % sock -s -A 172.24.37.78 9999 & 使 用 -A 再 次 党 试 ; 成 功 
[2] 29699 

macosx % sock -s -A 127.0.0.1 9999 & 使 用 -A 启 动 第 三 个 服务 器 ; 成 功 
[3] 29700 

macosx % netstat -na | grep 9999 

tcp4 0 0  4127.0.0.1.9999 i LISTEN 

tcp4 © 172.24.37.78.9999 : LISTEN 

tcp4 0 * 9999 . LISTEN 
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7.6 “我们 首先 在 支持 多 播 但 不 支持 SO_REUSEPORT 选 项 的 一 个 主机 
(Solaris 9) 上 尝试 2 。 


solaris % sock -s -u 8888 & 第 一 个 服务 器 启动 


[1] 24051 

solaris % sock -s -u 8888 

can’ t bind local address: Address already in use 

solaris % sock -s -u -A 8888 & 使 用 -A 启 动 第 二 个 服务 器 ; 成 功 
solaris % netstat -na | grep 8888 我 们 看 到 重复 的 捆绑 


* 8888 Idle 
* 8888 Idle 


这 个 系统 上 第 一 个 bind 不 必 指 定 S0_REUSEADDR， 但 是 第 二 个 起 必须 指 
^E o 
最 后 我 们 在 既 支 持 多 播 又 支持 SO_REUSEPORT 选 项 的 MacOS X 上 进行 党 


试 。 我 们 首先 给 一 前 一 后 两 个 服务 器 尝试 SO_REUSEADDR 选 项 ， 但 是 它 不 起 作 
用 o 


macosx % sock -u -S -A 7777 & 


[1] 17610 
macosx % sock -u -s -A 7777 
can't bind local address: Address already in use 


Beg AG SARS ae I SS 1T ARS az ISO REUSEPORTJEJJI » JX 
LL 因为 完全 重复 的 捆绑 要 求 共 享 同 一 捆绑 的 所 有 套 接 字 都 使 用 该 选 
IJI o 


macosx % sock -u -s 8888 & 

[1] 17612 

macosx % sock -u -s -T 8888 

can't bind local address: Address already in use 


最 后 给 两 个 服务 器 都 指定 SO_REUSEPORT 选 项 ， 这 是 起 作用 的 。 


macosx % sock -u -s -T 9999 & 


[1] 17614 

macosx % sock -u -s -T 9999 & 

[2] 17615 

macosx % netstat -na | grep 9999 

udp4 0 0 * ,9999 

udp4 0 0 *,9999 ud 


7.7“” 它 不 起 任何 作用 ， 因 为 ping 使 用 ICMP 套 接 字 ， 而 SO_DEBUG 套 接 字 选 
项 只 影响 TCP 套 接 字 。SO_DEBUG 套 接 字 选 项 的 描述 一 直 有 些 和 党 通 ， 璧 如 说 “这 
个 选项 开启 相应 协议 层 中 的 调试 ”， 但 是 实现 该 选项 的 唯一 协议 层 一 直 只 是 
TCP 。 
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7.8 ”图 E-6 给 出 了 时 间 线 。 


服务 器 处 由 


图 E-6 ”Nagle 算 法 与 延 滞 ACK 的 交互 情况 
7.9 ”设置 TCP_NODELAY 套 接 字 选项 导致 来 自 第 二 个 write 的 数据 被 立即 发 
送 ， 即 使 该 连接 上 还 有 一 个 尚未 得 到 确认 的 小 分 组 。 这 种 情况 如 图 E-7 所 示 。 本 
例子 中 总 时 间 只 稍微 超过 150 ms e 


0 
50 
Ln s aan A RH 
150 
200 


图 E-7 H ETCP NODELAYESEEJOOR f Nagle IE 


740 ”这 种 办 法 的 优点 古 减 少 了 分 组 的 个 数 ， 如 图 E-8 所 示 。 


"assu 
100 


150 


200 


图 E-8 使 用 writev 代 替 设 置 TCP_NODELAY 套 接 字 选项 


7.11 4.2.3.2 节 声称 “ 延 灌 必 须 低 于 0.5 秒 钟 ， 而 且 在 完全 大 小 分 节 流 上 至 少 
每 隔 一 个 分 节 束 应 该 有 一 个 ACK”。 源 目 Berkeley 的 实现 延 滞 ACK 最 从 200ms 
CTCPv2 第 821 页 ) 
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7.12 ”图 5-2 中 的 服务 器 父 进程 大 部 分 时 间 花 在 阻塞 于 accept 调 用 中 ， 图 5- 
3 中 的 子 进程 则 大 部 分 时 间 花 在 阻塞 于 read 调 用 中 ， 它 是 由 readline 调 用 的 。 
保持 存活 选项 对 于 监听 套 接 字 不 起 作用 ， 因 此 父 进程 不 受 客户 主机 毅 溃 影响 。 
子 进 程 的 read 将 返回 ETIMEDOUT 错 误 ， 它 在 跨 连 接 的 最 后 一 次 数据 交换 之 后 约 
2 小 时 发 生 。 


743 图 5-5 中 的 客户 大 部 分 时 间 花 在 阻塞 于 fgets 调 用 中 ，fgets 本 身 则 
咀 塞 在 标准 WO 函数 库 中 对 于 标准 输入 某 种 类 型 的 读 操 作 中 。 当 跨 连 接 的 最 后 一 
次 数据 交换 之 后 约 2 小 时 保持 存活 定时 器 超时 并 且 所 有 保持 存活 侦探 分 组 都 没有 
诱发 来 和 目 服务 器 的 啊 应 时 ， 套 接 字 的 竺 处 理 错 误 被 设置 成 ETIMEDOUT。 然 而 客 
户 阻 塞 在 对 于 标准 输入 的 fgets 调 用 中 ， 因 此 看 不 到 这 个 错误 ， 直 到 对 于 套 接 
字 执 行 读 或 写 操作 。 这 就 是 我 们 在 第 6 章 把 图 5-5 改 成 使 用 select 的 原因 之 一 。 


7.14 ”客户 大 部 分 时 间 花 在 阻塞 于 select 调 用 中 ， 一旦 待 处 理 错误 被 设置 
成 ETIMEDOUT (如 上 一 题 的 解答 所 述 ) ，select 就 立即 返回 套 接 字 的 可 读 条 
件 。 


745 ”只 交换 2 个 而 不 是 4 个 TCP 分 节 。 两 个 系统 的 定时 器 精确 同步 的 可 能 性 
非常 低 ; 因此 一 端的 保持 存活 定时 霹 会 比 另 一 端 略 早 一 点 超时 。 首 移 超时 的 那 
一 端 发 送 保持 存活 侦探 分 组 ， 导 致 另 一 端 确认 这 个 分 组 。 然 而 保持 存活 侦探 分 
组 的 接收 导致 时 钟 略 慢 的 主机 把 保持 存活 定时 器重 置 成 2 小 时 。 


746 ”最 初 的 套 接 字 API 并 没有 listen 函 数 。 相 反 ，socket 函 数 的 第 四 个 
参数 含有 套 接 字 选 项 ， 而 SO0_ACCEPTCON 就 是 用 来 指定 监听 套 接 字 的 。 加 了 
1isten 函 数 后 ， 这 个 选项 还 是 保留 着 ， 不 过 现在 只 是 由 内 核 来 设置 (TCPv2 第 
456 页 ) 。 


第 8 章 


8.1 是 的 。read 返 回 4096 字 节 的 数据 ，recvfrom 则 返回 2048 字 节 (2 个 
数据 报 中 的 第 一 个 ) 。 不 管 应 用 请 求 多 大 ，recvfrom 决 不 会 返回 多 于 1 个 数据 
报 的 数据 。 

8.2 ”如 果 协 议 使 用 可 变 长 度 套 接 字 地 址 结构 ，clilen 很 可 能 太 大 。 我 们 将 
在 第 15 章 看 到 这 对 于 Unix 域 套 接 字 地 址 结构 是 可 以 接受 的 ， 不 过 正确 编写 这 个 
函数 的 方式 是 把 由 recvfrom 返 回 的 真正 长 度 用 作 sendto 的 长 度 。 
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84 像 这 样 运 行 ping 是 查看 由 运行 ping 的 主机 接收 到 的 ICMP 消 息 的 简易 
方法 。 我 们 把 分 组 发 送 频率 由 通 前 的 每 秒 钟 1 次 降低 到 每 60 秒 钟 1 次 以 减少 输出 
量 。 如 果 我 们 在 主机 aix 上 运行 我 们 的 UDP 客户 程序 ， 所 指定 的 服务 器 耻 地 址 为 
192.168.42.1， 同 时 运行 ping 程 序 ， 束 会 得 到 如 下 输出 《注意 即使 指定 -V 选 项 ， 
也 并 非 所 有 ping 客 户 程序 都 显示 所 接收 到 的 ICMP 错 误 ) : 


aix % ping -v -i 60 127.0.0.1 

127.0.0.1: (127.0.0.1): 56 data bytes 

64 bytes from 127.0.0.1: icmp_seq=0 ttl-255 time=0 ms 

36 bytes from 192.168.42.1: Destination Port Unreachable 


Vr HL TOS Len ID Flg off TTL Pro cks Src Dst Data 
4 5 00 0022 0007 © 0000 1e 11 c770 192.168.42.2 192.168.42.1 


UDP: from port 40645, to port 9877 (decimal) 


85 ”监听 TCP 套 接 字 也 许 有 一 个 套 接 字 接 收 缓冲 区 大 小 ， 但 是 它 绝 不 会 接 
受 数 据 。 大 多 数 实 现 并 不 预先 给 套 接 字 发 送 缓冲 区 或 接收 缓冲 区 分 配 内 存 空 
间 。 使 用 SO_SNDBUF 和 SO_RCVBUF 套 接 字 选项 指定 的 套 接 字 缓 冲 区 大 小 仅仅 是 
给 套 接 字 设 定 的 上 限 。 


8.6 ”我 们 在 多 宿主 机 freebsd 上 指定 -U 选 项 (使 用 UDP) 和 -1 选项 (指定 
本 地 IP 地 址 和 端口 ) 运行 sock 程 序 。 


freebsd % sock -u -1 12.106.32.254.4444 192.168.42.2 8888 
hello 


本 地 了 PP 地址 在 图 1-16 中 是 主机 freebsd 的 因特网 侧 接口 ， 但 是 数据 报 要 到 达 
目的 地 则 必须 从 另 一 个 接口 出 去 。8 使 用 tcpdump 监 视 网 络 表明 源 耻 地 址 确实 是 
由 客户 绑 定 的 那个 地 址 ， 而 不 是 外 出 接口 的 地 址 。 


14:28:29.614846 12.106.32.254.4444 > 192.168.42.2.8888: udp 6 
14:28:29.615225 192.168.42.2 > 12.106.32.254: icmp: 192.168.42.2 


udp port 8888 unreachable 


8.7 ”在 客户 程序 中 放 一 个 printf 调 用 会 在 每 个 数据 报 之 间 引 入 一 个 延迟 ， 
从 而 允许 服务 器 接收 更 多 的 数据 报 。 在 服务 器 程序 中 放 一 个 printf 调 用 则 会 导 
BUR ae BRS GEIR © 


8.8 IPvAZNIBIRISCK7J65535*E B, xXHEHÉALA-1"P160z A AKETE © 
IPv4 首 部 需要 20 字 节 ，UDP 首 部 需要 8 字 节 ， 留 给 UDP 用 户 数据 最 大 65507 字 节 。 
对 于 没有 任何 扩展 首部 的 IPv6 数 据 报 而 言 (BARBRA, AAAS ar 
长 度 是 一 个 步 跳 选项 ， 出 现在 步 跳 选项 扩展 首部 中 ) ， 扣 除 IPv6 首 部 的 净 荷 最 大 
为 65535 字 节 (图 A-2) ， 再 扣除 8 字 节 UDP 首部 ， 留 给 UDP 用 户 数据 最 大 65527 


rit  @ 


dq MH? 


Til 
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图 E-9 给 出 了 dg_c1i 函 数 的 新 版 本 。 如 果 没 有 预先 设置 发 送 缓冲 区 大 小 ， 
源 自 Berkeley 的 内 核 就 给 sendto 调 用 返回 EMSGSIZE 错 误 ， 因 为 套 接 字 发 送 缓 
冲 区 的 默认 大 小 通常 不 足以 暂 存 最 大 的 UDP 数据 报 ( 先 做 完 习题 7.1) 。 然 而 如 
有 果 我 们 运行 如 图 E-9 所 示 客 户 程 序 ， 先 设置 客户 套 接 字 缓 冲 区 大 小 再 发 送 和 接收 
UDP 数 据 报 ， 那 么 服务 絮 不 返 送 任何 数据 报 。 我 们 可 以 运行 tcpdump 验 证 客户 
的 数据 报 发 送 到 了 服务 器 上 ， 但 是 如 果 在 服务 器 程序 中 放 一 个 printf 调 用 ， 我 
们 束 发 现 它 的 recvfrom 调 用 并 没有 返回 这 个 数据 报 。 问 题 出 在 服务 器 的 UDP 套 
接 字 接收 缓冲 区 小 于 我 们 发 送 的 数据 报 ， 因 此 该 数据 报 被 丢弃 掉 而 不 是 被 递送 
到 套 接 字 。 在 FreeBSD 系 统 上 我 们 可 通过 运行 netstat -s 命 令 ， 并 查看 接收 这 
个 大 数据 报 前 后 “dropped due to full socket buffer” ( 因 套 接 字 缓冲 区 满 而 丢弃 ) 
计数 器 值 的 变化 加 以 验证 。 最 终 的 办 法 就 是 修改 服务 器 程序 ， 预 先 设置 它 的 套 
接 字 发 送 缓冲 区 与 接收 缓冲 区 的 大 小 。 


udpeliserwageiibig.c 


1 #includs "unp.h* 

2 :funzet MAXLINE 

3 drlefire MAXLINE 55507 

4 void 

5 dg cli[FILE *fp, int sockfd, const SA *pservaddr, sockler t servlen) 
= 1 

9 1 


7 int -Ze 

R char serndline[MAXLINR,, recvline (MAXLINR + 1]; 

9 ssize t n; 

2 size = 70030; 

l Setsockopt (sockfd, SOL SOCKET, 30 SNDBUP, &size, sizeofisize') 
2 Setsockopt(soc«fd, SOL SOCKET, SO RCVBUF, &síza, sizeofisize!); 
13 Sendto(sockfd, sendline, MAXLINZ, 0, pservadir, servlen); 

1 n= Reevtrem(ccektd, recviane, MAXLINE, C, NULL, NULL); 

5 printf ("received $d bytes\n", n); 


15 } 


udpeliserwaaciibig.c 
图 E-9 写 出 最 大 的 UDP/IPv4 数 据 报 


大 多 数 网 络 上 65535 字 节 的 也 数据 报 需要 分 片 。 回 顾 2.11 节 ， 我 们 知道 IP 层 
必须 支持 的 重组 缓冲 区 大 小 只 有 576 字 节 ， 因 此 你 可 能 会 磁 到 接收 不 了 本 习题 发 
送 的 最 大 大 小 数据 报 的 主机 。 另 外 源 自 Berkeley 的 许多 实现 (包括 4.4BSD-Lite 
2) 有 一 个 正 负 号 缺陷 (bug) ， 它 导致 UDP 不 能 接受 大 于 32767 字 节 的 数据 报 
(TCPv2 第 770 页 第 95 行 ) 。 


第 9 章 


9.1 总 地 说 来 ， 整 体 上 接受 短期 请 求偶 尔 需要 长 期 会 话 的 应 用 系统 可 以 利 
用 sctp_peeloff。 举 例 来 说 ， 某 个 类 似 传统 UDP 的 SCTP 应 用 系统 中 ， 服 务 器 
通常 有 如 短期 事务 处 理 那 般 响应 客户 的 请 求 ， 不 过 偶尔 被 请 求 执行 长 期 的 音频 
数据 传送 。 大 多 数 情况 下 服务 器 发 送 少数 几 个 短小 的 UDP 消息 就 行 了 ; 然而 一 
旦 音频 请 求 到 达 ， 长 期 会 话 就 被 激活 ， 以 发 送 音频 信息 。 这 种 情形 下 可 以 使 用 
该 函数 把 音频 流 剥 离 出 来 给 专门 的 线程 或 进程 处 理 。 
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92 ”因为 SCTP 不 支持 半 关 闭 状态 ， 造 成 当 客户 调用 Close 时， 关联 终止 序 
列 反 来 自 服 务 器 的 任何 忆 排 队 但 尚未 处 理 的 林 决 数据 站 剧 入 终止 关联 ， 达 到 
关闭 关联 目的 。 


9.3 ”对 于 一 到 一 式 套 接 字 客 户 必须 首先 调用 sctp_connect 显 式 建立 关 
联 ， 但 是 该 函数 没有 额外 指定 数据 的 参数 ， 因 此 无 法 在 四 路 握手 的 第 三 个 分 组 
中 随 COOKIE ECHO 消 息 携 带 数 据 。 对 于 一 到 多 式 套 接 字 客 户 不 比 移 建立 关联 再 
发 送 数据 ， 而 是 可 以 调用 sctp_sendto 同 时 完成 两 者 ， 也 就 是 说 这 样 发 送 的 数 
据 随 COOKIE ECHO 消 息 被 IP 数 据 报 载 送 到 对 端 ， 这 样 的 关联 是 隐 式 建立 的 。 


9.4 ”本 端 准备 与 之 建立 关联 的 对 端 在 关联 建立 阶段 能 够 发 送 回 数 据 的 唯一 
可 能 情形 是 它 在 关联 建立 之 前 就 准备 好 了 数据 。 当 两 端 都 使 用 一 到 多 式 套 接 字 
几乎 同时 发 送 数据 隐 式 建立 关联 时 就 会 发 生 这 种 情形 。 这 种 关联 建立 称 为 INIT 
冲突 ， 详 见 [Stewart and Xie 2001| 第 4 章 。 


9.5 ” 某 些 情况 下 并 非 所 有 绑 定 的 地 址 都 可 以 传递 到 对 端 端 点 。 具 体 地 说 ， 
如 采 茶 个 应 用 进程 绑 定 的 耳 地 址 中 既 有 公用 的 又 有 私 用 的 ， 那 么 可 能 只 有 公用 地 
址 可 以 与 对 端 共 享 。 另 一 个 例子 是 IPv6 的 链 路 局 部 地 址 不 一 定 能 够 与 对 端 共 享 。 


第 10 章 


10.1 ”如果 sctp_sendmsg 调 用 返回 错误 ， 那 就 不 会 发 送 任何 消息 ， 客 户 
进程 于 是 阻塞 在 sctp_recvmsg 调 用 中 ， 等 竺 永远 不 会 返 送 回来 的 响应 消息 。 
解雇 该 问题 的 办 法 显然 是 检查 这 个 函数 调用 的 返回 值 ， 如 果 发 现 消 息 发 送出 
错 ， 那 就 报告 错误 而 不 再 接收 。 


如 果 sctp_recvmsg 调 用 返回 错误 ， 那 就 不 会 有 响应 消息 达到 ， 客 户 进 程 
循环 回去 继续 党 试 发 送 消息 ， 可 能 导致 建立 新 的 关联 。 避 免 这 个 问题 的 办 法 也 
是 检查 这 个 函数 调用 的 返回 值 ， 根 据 情 况 或 者 报告 错误 并 关闭 套 接 字 ， 从 而 让 
服务 器 也 收 到 一 个 错误 ， 或 者 若 错误 是 暂时 的 则 重新 党 试 sctp_recvmsg 调 
用 。 
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10.2 ”如 果 服 务 器 在 接收 一 个 请 求 后 退出 ， 客 户 将 被 永远 挂 起 ， 等 着 决 不 会 
到 来 的 消 轧 。 客 户 检测 这 种 情况 的 方法 之 一 是 开 局 关 联 事 件 。 这 样 当 服务 硕 退 
出 时 客户 将 收 到 一 个 消息 ， 告 知客 户 该 关联 已 经 不 复 存 在 。 客 户 可 就 此 采取 恢 
复 手段 ， 壁 如 说 联系 男 外 一 个 服务 器 。 方 法 之 二 是 客 尸 局 动 一 个 定时 器 ， 过 一 
段 时 间 收 不 到 啊 应 消 乱 束 取 消 关 联 。 


10.3 ”我 们 选择 800 字 节 是 为 了 试图 让 每 个 SCTP 块 处 于 单个 分 组 中 。 更 好 的 
方法 也 许 是 通过 SCTP_MAXSEG 套 接 字 选项 确定 适合 一 个 SCTP 块 的 大 小 。 


10.4 Nagle 算 法 (由 SCTP_NODELAY 套 接 字 选项 控制 ， 见 7.10 节 ) 只 会 在 
选择 较 小 的 数据 传送 大 小 前 提 下 导致 问题 。 只 要 以 迫使 SCTP 立 即 发 送 的 大 小 写 
出 数据 就 不 会 发 生 危 害 。 然 而 如 果 给 out_sz 选 择 一 个 偏 小 的 值 ， 结 果 就 会 发 生 
扭曲 ， 和 暂缓 发 送 某 些 数据 以 等 竺 来自 对 端的 SACK。 因 此 如 果 使 用 较 小 的 大 小 
值 ， 那 么 禁止 Nagle 算 法 〈 即 开启 SCTP_NODELAY 套 接 字 选 项 ) 可 能 比较 可 取 。 


10.5 ”如果 应 用 进程 在 建立 一 个 关联 之 后 改动 流 的 数目 ， 那 么 这 个 关联 的 实 
o 这 是 因为 流 数 的 变更 仅仅 影响 新 的 关联 ， 而 不 影响 现 有 关 


10.0 ”一 到 多 式 套 接 字 人 允许 隐 式 设置 关联 。 为 了 使 用 辅助 数据 更 改 某 个 关联 
的 设置 ， 我 们 首先 需要 使 用 sendmsg 调 用 把 这 些 数 据 提供 给 对 端 。 因 此 请 求 更 
多 的 流 要 求 使 用 辅助 数据 通过 sendmsg 进 行 隐 式 关联 重新 设置 。 
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11.1 图 E-10 给 出 了 调用 gethostbyaddr 的 程序 。 


names darostont2.c 


1 include "unp.h" 

2 int 

3 main(int argc, char **argv) 

4 

5 char *pzr, **pptr; 

é char str INET6 ADDRSTRIEN]; 

7 struct hostent *hytr; 

8 while (--arg2 > 0) { 

Ss ctr e *11axrqv; 

19 if | ‘hpzr = gethostbyname (ptr)! -- NULL) [ 

11 err_msgi"gethostbyname error for hast: $a: is", 
12 ptr, hstrerror(A_errno)) ; 

13 continuc; 

14 ) 

15 printf("ofl"icial hostname: s\n", kptr-»* name] ; 

18 for (pptr = hptr--h aliases; *pptr !- NULL; pptr+4) 
17 rrinctf(" alias: te\n", *pptr;; 

15 switch /hptr--h a3drtype) | 

19 case AF TNET: 

29 łiždef AF INET6 

21 case AF INETé: 

22 4endif 

23 aptr = hptr-»h «ddr list; 

24 for ( ; *pptr .- NULL; ppzcres; { 

25 orintt ("\taddrece: tc\n", 

25 Inet rtcp(hztr--h add-ztype. *prztr, str. sizeof str)!); 
27 if | ihptr = gethcscbyeddrci*pprr, ^prr-»h lengti 
28 hztr-*h addrtype)) == NULL) 
22 printf ("\t (gethestbyaddr =ailed) \n"); 
39 else if (hpt--»L zame !- NULL! 

31 printf("NCrane = s\n", hptr-»* rame; 
32 else 

33 printf ("\t(no hcotname returned by qethoctbyacdr) Wn"); 
34 } 

35 preax; 

35 detault: 

37 err ret/"unknowr address =ype") ; 

33 "Treat; 

39 ) 

49 } 

4l exit(0); 

42 ) 


acres horstent2.1 


图 E-10 ”图 11-3 改 成 调用 gethostbyaddr 的 结果 


本 程序 针对 只 有 一 个 IP 地 址 的 主机 运行 没有 问题 。 如 果 针 对 拥有 8 个 IP 地 址 
的 一 个 主机 运行 图 11-3 中 的 程序 ， 我 们 得 到 如 下 输出 : 


freebsd % hostent cnn.com 
official hostname: 
address: 
address: 
address: 


address: 
address: 
address: 
address: 
address: 


但 是 如 果 我 们 针对 同一 个 主机 运行 图 E-10 中 的 程序 ， 那 么 它 只 输出 其 中 一 
个 IP 地 址 : 


freebsd % hostent2 cnn.com 
official hostname: cnn.com 


address: 64.236.24.4 
name - wwwi.cnn.com 
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问题 在 于 gethostbyname 和 gethostbyaddr 这 两 个 函数 共享 同一 个 
hostent 结 构 ， 束 如 11.18 节 开 首 部 分 所 示 。 当 我 们 的 新 程序 在 调用 
gethostbyname 之 后 调用 gethostbyaddr 时 ， 它 重用 了 这 个 结构 以 及 由 它 指 
向 的 存储 区 〈 即 h_addr_1ist 指 针 数 组 及 由 该 数组 所 指向 的 数据 ) ， 结 果 冲 掉 
了 由 gethostbyname 返 回 的 其 余 7 个 IP 地 址 。 


11.2 ”如 果 你 的 系统 不 支持 重 入 版 本 的 gethostbyaddr (我 们 将 在 11.19 节 
讲解 ) ， 那 么 你 必须 在 调用 gethostbyaddr 之 前 复制 由 gethostbyname 返 回 
的 指针 数组 以 及 由 该 数组 所 指向 的 数据 。 


11.3 ”chargen 服 务 器 一 直 向 客户 发 送 数据 ， 直 到 客户 关闭 连接 为 止 〈 也 就 
是 说 你 中 断 客户 为 止 ) 。 


11.4 这 是 较 新 版 本 BIND 的 一 个 特性 ， 不 过 POSIX 没 有 规定 这 种 处 理 方 
式 ， 在 可 移植 程序 中 不 能 依赖 它 。 图 E-11 给 出 了 图 11-4 中 程序 的 修改 后 版 本 。 对 
主机 名 字符 串 的 测试 顺序 很 重要 。 我 们 首先 调用 inet_pton， 因 为 它 是 一 个 快 
速 的 全 内 存 访问 测试 函数 ， 用 于 判定 主机 名 字符 串 是 不 是 一 个 有 效 的 点 分 十 进 
制 数 IP 地 址 。 仅 当 这 种 测试 失败 时 我 们 才 调 用 gethostbyname， 它 往往 牵涉 某 
些 网 络 资源 ， 因 而 得 花 一 段 时 间 。 
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names/daytimetepel2. ¢ 
1 #incluce "unp.h" 


2 int 
3 main(int erqc, chai *^a:uv! 


5 int sockfd, r; 

6 chiar recvline [MAXLINE + 1]; 

7 struct sockaccr in servaddr: 

8 struct in_addr  **pptr. *add-s[2l: 
E struct hostent *hp; 


16 struct servent ‘sp; 

11 if (argc !- 3) 

42 arr_quir("usage: daytimetcpcliz «hostname» <services") ; 

13 2ztro(&servaócr, sizeof |servaddr! | ; 

14 servaddr.sin family = AF -NET: 

15 if (inet ptcn(AP INDT, argv[1]. ase-vaddr.sin addr) -- 1) { 

16 addrs[0] = &serveddr.sin addr; 

1i a$3rs[1] = NULL; 

RES ptr - Saddrs [t]; 

15 ] else if ( (hp = gethostbyname(argv(1]!) 1= NULL) { 

20 potr = (struct in_addr **; hp-»h add- list; 

21 } else 

22 err quit("hcstrame error for ts: ts", argv[1], hstrerrcrih_errno)); 
23 if ( (n = atci(aruv[21)) > 0! 

74 aervaridr.ein port = htonsin; : 

2s alse if ( (ep = geteervbyname(argz[3], "tco")) l= NULL) 

26 32rvaddr.sin port = sp »3 port; 

27 else 

" arr rit ("gerservhbyname error “or xs*, argv[2]); 

2s for ( ; *pktr !- NULL; pptr-r) Í 

30 sackfd = Sccker (AF_INET, SOCK STREAM, 00; 

34 memmove(&servacir.sin addr, *pptr, sizeof(struct in addr)); 
32 oriutf("Lryiuc s\n", Sock nLop((SA *) &servaddr, sizecf(servaddi]]|: 
33 if (connect(ccckfd, (SA +] &ocrvaddz, scizcof(ocrvaddr)) == 0) 
34 break ; /* success */ 

as arr_ret("cannect error"); 

EL siase (encktd) ; 

36 if (*pptr == NULL) 

29 err_quir ("unable to connect": 

40 while ( (n = Readisockfd, recvline, MAXLINE)) > 0) { 

41 recvlime[u] = C; /* wall terminale 4/ 

42 Fnura(recvlire, stdout); 

43 

44 exit (0); 

45 ) 


namesioaytimetcpeli2.c 


图 E-11 ”允许 点 分 十 进 制 数 耳 地 址 或 主机 名 ， 端 口号 或 服务 名 的 版 本 


如 果 这 个 字符 串 是 一 个 有 效 的 点 分 十 进 制 数 PP 地 址 ， 我 们 就 目 行 构 造 指 向 这 
个 IP 地 址 的 指针 数组 (addrs) ， 它 使 得 以 后 使 用 pptr 的 循环 代码 保持 不 变 。 


既然 主机 名 字符 串 已 被 转换 成 套 接 字 地 址 结构 中 的 二 进 制 数 格式 ， 我 们 于 
是 进入 使 用 pptr 的 循环 。 我 们 把 图 11-4 中 的 memcpy 调 用 改 为 nemmove (We 
功能 相同 ， 不 过 后 者 能 够 正确 处 理 源 目 的 内 存 区 重 且 的 情形 ) ， 这 是 因为 如 果 
RI ue PONITUR 那么 调用 memmove 的 源 和 目的 内 存 
区 是 相同 的 。 


11.5 ”图 E-12 给 出 了 这 个 程序 。 


tw th liar wu pr di 
1 #4include *unp.h" 


2 inz 

3 mainfint argc, char v"*arqv) 

al 

5 int cocktd, n; 

6 cher recvline[KAXLINE + 1]; 

7 struct seckacdr_in serveddr; 

8 struc- sockaddr ing serveddré; 

9 struct seckaadr *5à; 

10 socklen t salen; 

11 struc- in_adcr **ppt-, 

12 struc- hosrent thp: 

13 struc= servert “sp; 

141 if (argc !- ij 

15 e-r quit ("usage: day-imetcp-li3 «hostzame» «service»"); 
16 it ( (hp = qcthoctbyname!arqv[1])] == NULL! 

17 e-r quit ("hostname error for $s: %s", argv[1] hstrerror(h errno)!; 
18 if ( (sp = gstservbynane!argv[2], "tcp")! == NULL! 
1a err qvit("getservbyname error for $s", argv[2]); 
20 pptr = (struct in_addr +*+) hp-»h addr list: 

21 for į : *pztr != NULL; pocr::) { 

2 sockf= = Socket(hp-»- sddrtype, SOCK_STREAM, 0); 
23 a= {hp->h_addrtyps == AF INET) | 

24 se = (SA t) &servaddr; 

25 salen - sizeof (sezvadér) ; 

26 } else if (hp-»t addrtype == A* INETE) { 

27 s2 = ‘SA *! Ggservaddrs 

28 eslen = sizeof (servaddre! ; 

29 } elss 

30 err quit! "urknown addrtype td", hp->h_addrtype ; 
31 byero(sa, salen); 

32 £a-»o3 tamily = hp-»5 zddrtype; 

33 sock_eet port (sa, salen, spe»s purt); 

31 COCA cet addrí(oa, calen, *pptr!;: 

35 print£("crying ts\n", Sock rtopísa, salen)): 

36 if (connect (scckfd, sa, salen) == C! 

37 breax; /* success */ 

5a ecr_ret ("connect error"); 

33 cloze(cocktd) : 

40 } 

41 if (*ppt> == NULL) 

42 err quit (“unable ta connect"); 

43 while ( (n - Read(sockEd, recvline, MAXLINE)) » 0I { 
4a recu_im{[n} = 0;/* null terminate */ 

5 Pputs(recvline, stdout); 

46 } 

47 exit id}; 

43 } 


names/dayiimerwpolt3,c 
图 E-12 ”图 11-4 中 程序 同时 适用 于 IPv4 和 IPv6 的 修改 版 本 


我 们 使 用 由 gethostbyname 返 回 的 h_addrtype 值 判定 地 址 类 型 ， 并 使 用 
我 们 的 sock_set_port 和 sock_set_addr 这 两 个 函数 (3.87) 在 合适 的 套 接 
字 地 址 结构 中 设置 端口 和 地 址 这 两 个 字段 。 


本 程序 尽管 能 够 工作 ， 却 存在 两 个 局 限 。 首 先 ， 我 们 必须 处 理 所 有 差异 ， 
查看 h_addrtype 后 再 适当 地 设置 sa 和 salen。 更 好 的 办 法 是 由 菜 个 库 画 数 不 
仅 完成 主机 名 和 服务 名 的 查找 ， 而 且 完成 整个 套 接 字 地 址 结构 的 填写 (例如 11.6 
节 的 getaddrinfo) 。 其 次 ， 本 程序 只 在 支持 IPv6 的 主机 上 能 够 编译 。 要 在 仅 
a 60 HUE RIMIS 从 而 把 代码 弄 得 复杂 起 
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11.7 “分 配 一 个 大 缓冲 区 《〈 比 任何 套 接 字 地 址 结构 都 要 大 ) 并 调用 
getsockname。 它 的 第 三 个 参数 是 一 个 值 一 结果 参数 ， 由 它 返 回 真正 的 协议 地 
址 大 小 。 不 过 这 种 方法 只 适合 具有 固定 长 度 套 接 字 地 址 结构 的 协议 (例如 IPv4 和 
IPv6) ， 对 于 能 够 返回 可 变 长 度 套 接 字 地 址 结构 的 协议 (例如 Unix 域 套 接 字 ， 第 
15 章 ) 却 不 能 保证 正确 工作 。 


11.8 ”我 们 百 先 分 配 存 放 主 机 名 和 服务 名 的 数组 : 


然后 在 accept 返 回 之 后 改 为 调用 getnameinfo 以 取代 sock_ntop: 


if (getnameinfo(cliaddr, len, host, NI_MAXHOST, serv, 
NI MAXSERV, NI NUMERICHOST | NI_NUMERICSERV) == 0) 


printf("connection from %s.%s\n", host, serv); 


既然 这 是 服务 器 程序 ， 我 们 指定 NI_NUMERICHOST 和 NI_NUMERICSERV 标 
志 以 避免 查询 DNS 和 查找 /etc/services 文 件 。 


11.9 ”第 二 个 服务 器 碰 到 的 第 一 个 问题 是 无 法 捆绑 与 第 一 个 服务 硕 相 同 的 端 
口 ， 这 是 因为 没有 设置 SO_REUSEADDR 套 接 字 选项 。 最 容易 的 解决 办 法 是 制作 
udp_server 函 数 的 一 个 副本 ， 把 它 命 名 为 udp_server_reuseaddr， 由 它 
设置 这 个 套 接 字 选 项 ， 再 从 服务 器 程序 调用 这 个 新 函数 。 


11.10” 当 客户 输出 “Trying 206.62.226.35...” 时 ，gethostbyname 已 经 返回 
了 了 P 地 址 。 客 户 在 此 之 前 的 任何 停顿 是 解析 器 用 于 查找 主机 名 的 时 间 。 和 输 
出 “Connected to bsdi.kohala.com” 意 味 着 connect 已 经 返回 。 这 两 个 输出 行 之 间 
的 任何 停顿 是 connect 用 来 建立 连接 的 时 间 。 


第 12 章 


12.1 下 面 是 相关 的 摘录 片段 (BA TERMI HREN) 。 主 机 
freebsd 上 的 FTP 客 户 不 论 使 用 IPv4 还 是 IPv6 总 是 先 尝试 EPRT 命 令 ， 若 不 工作 


则 退回 到 PORT 命令 ° 
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freebsd % ftp aix-4 
Connected to aix-4.unpbook.com. 
220 aix FTP server ... 


230 Guest login ok, access restrictions apply. 
ftp> debug 

Debugging on (debug=1). 

ftp> passive 

Passive mode: off; fallback to active mode: off. 
ftp> dir 

---» EPRT |1|192.168.42.1|50484| 


500 'EPRT |[1|192.168.42.1|50484|': command not understood. 


disabling epsv4 for this connection 

---> PORT 192,168, 42,1,197,52 

200 PORT command successful. 

---> LIST 

150 Opening ASCII mode data connection for /bin/ls. 


freebsd % ftp ftp.kame.net 

Trying 2001:200:0:4819:203:47ff:fea5:3085... 
Connected to orange.kame.com. 

220 orange.kame.com FTP server ... 


230 Guest login ok, access restrictions apply. 

ftp> debug 

Debugging on (debug=1). 

ftp> passive 

Passive mode: off; fallback to active mode: off. 
ftp> dir 

---» EPRT |2|3ffe:b80:3:9ad1: :2|50480| 

200 EPRT command successful. 

---> LIST 

150 Opening ASCII mode data connection for '/bin/ls'. 


第 13 章 


131 daemon_init 中 关闭 所 有 摘 述 符 的 close 调 用 也 将 关闭 由 
tcp_1listen 建 立 的 监 折 TCP 套 接 字 。 有 既然 作为 守护 进程 编写 的 程序 可 能 是 从 某 
AN. 


个 系统 启动 命令 脚本 执行 的 ， 因 此 我 们 不 应 该 假设 任何 出 错 消息 都 能 写 到 某 人 


终端 。 所 有 出 错 消 息 都 应 该 使 用 syslog 登 记 ， 即 使 诸如 命令 行 参数 无 效 之 类 的 


JE SU ERR ALANI 


13.2 ”TCP 版 本 的 echo、discard 和 chargen 服 务 器 由 inetd 派 生出 来 之 
后 作为 子 进程 运行 ， 因 为 它们 需要 运行 到 客户 终止 连接 为 止 。 另 外 2 个 TCP 服 务 
器 time 和 daytime 并 不 需要 inetd 派 生子 进程 ， 因 为 它们 的 服务 极 易 实现 ( 即 
取得 当前 时 间 和 日 期 ， 把 它 格式 化 后 写 出 ， 再 关闭 连接 ) ， 于 是 由 inetd 直 接 


处 理 。 所 有 5 个 UDP 服务 的 处 理 都 不 需要 inetd 派 生子 进程 ， 因 为 每 个 服务 对 于 
引发 它 的 任 一 客户 数据 报 所 作 的 响应 只 是 最 多 产生 一 个 数据 报 。 因 此 这 5 个 服务 
也 由 inetd 直 接 处 理 。 


133 ”这 是 一 个 众所周知 的 拒绝 服务 型 攻击 ( [CERT] ) 。 来 自 端 口 7 的 
第 一 个 数据 报导 致 chargen 服 务 器 发 送 回 一 个 数据 报到 端口 ?7， 它 被 回 射 成 发 送 
到 chargen 服 务 器 的 下 一 个 数据 报 ， 这 样 一 直 循 环 下 去 。FreeBSD 上 实现 的 解决 
办 法 是 拒绝 源 端口 和 目的 端口 都 是 内 部 服务 的 外 来 数据 报 。 另 一 个 常用 的 解决 
办 法 是 在 每 个 主机 上 通过 inetd 禁 止 这 些 内 部 服务 ， 或 者 在 一 个 组 织 机 构 接 入 
因特网 的 路 由 器 上 这 么 做 。 


13.4 ”客户 的 JP 地 址 和 端口 取 自 由 accept 填 写 的 套 接 字 地 址 结构 。 


inetd 对 UDP 套 接 字 无 能 为 力 的 原因 是 读 入 数据 报 的 recvfrom 是 由 通过 
exec 激 活 的 真正 服务 器 而 不 是 ijnetd 本 身 执行 的 。 


inetd 可 以 仅仅 为 了 获取 客户 的 卫 地 址 和 端 u 定 MSG_PEEK 标 志 (14.7 
节 ) 舌 读 数据 报 ， 被 拓 读 的 数据 报 保 持原 地 不 动 ， 留 待 真正 的 服务 器 读 入 。 


934 


第 14 章 

144 ”如果 未 曾 建立 过 信号 处 理 函 数 ， 那 么 第 一 个 signal 调 用 将 返回 
SIG_DFL， 而 重新 设置 信号 处 理 函 数 的 第 二 个 signal1 调 用 只 是 把 它 设 置 回 默认 
处 置 。 


143 ”下面 是 修改 后 的 for 循 环 : 


for (C $234) d 
if ( (n = Recv(sockfd, recvline, MAXLINE, MSG PEEK)) == 0) 
break; /* server closed connection */ 


Ioctl(sockfd, FIONREAD, &npend); 
printf("%d bytes from PEEK, %d bytes pending\n", n, npend); 


n - Read(sockfd, recvline, MAXLINE); 
recvline[n] = 0; /* null terminate */ 
Fputs(recvline, stdout); 


14.4 ”数据 仍然 输出 ， 因 为 掉 出 main 范 数 末 尾 等 同 于 从 这 个 函数 返回 ， 而 
main 芳 数 义 古 由 C 局 动 例 程 如 下 调用 的 : 


exit(main(argc, argv)); 


因此 exit 仍 然 被 调用 ， 标 准 1/O 清 扫 例 程 也 同样 被 调用 。 


5815 XE 


15.1 unlink 从 文件 系统 中 删除 了 路 径 名 ， 此 后 客户 调用 connect 就 会 失 
败 。 服 务 器 的 监听 套 接 字 不 受 影响 ， 不 过 unlink 之 后 没有 客户 能 够 成 功 


connect 到 其 上 。 


15.2 即使 路 径 名 仍然 存在 ， 客 户 也 无 法 connect 到 服务 器 ， 这 是 因为 
pelo dcm 前 有 一 个 打开 着 的 绑 定 了 那个 路 径 名 的 Unix 域 套 接 字 
(15.477) ° 


15.3” 当 服务 器 通过 调用 sock_ntop 显 示 客 户 的 协议 地 址 时 ， 输 出 信息 将 
是 “datagram from (no pathname bound)" (数据 报 来 自 〈 无 路 径 名 绑 定 ) ) ， 因 为 
默认 情况 下 客户 的 套 接 字 上 不 绑 定 任何 路 径 名 。 

解决 办 法 之 一 是 在 udp_client 和 udp_connect 中 明确 检查 是 否 为 一 个 
Unix 域 套 接 字 ， 若 是 则 调用 bind 给 它 捆绑 一 个 临时 路 径 名 。 这 么 做 把 协议 相关 
处 理 置 于 原本 所 属 的 库 函 数 中 ， 而 不 是 置 于 我 们 的 应 用 程序 中 。 
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15.4 ”尽管 我 们 迫使 服务 器 程序 为 它 的 26 字 节 应 答 逐 个 字 节 调用 write， 客 
户 程 序 中 放置 的 Sleep 调用 还 是 保证 在 调用 read 之 前 所 有 26 个 分 节 都 接收 到 ， 
使 得 单个 read 调 用 返回 完整 的 应 答 。 这 个 例子 只 是 为 了 (再 次 ) 验证 TCP 是 一 
个 没有 内 在 记录 边界 的 字 节 流 。 


要 使 用 Unix 域 协议 ， 我 们 以 2 个 命令 行 参数 /local (或 /unix) 
和 /tmp/daytime (或 你 想 使 用 的 任何 其 他 临时 路 径 名 ) 启动 客户 和 服务 器 。 
情况 没有 变化 : 每 次 运行 客户 程序 由 read 返 回 的 都 是 26 个 字 节 。 


服务 器 为 每 个 send 指 定 MSG_EOR 标 志 之 后 逐个 发 送 的 每 个 字 节 都 被 认为 是 
一 个 逻辑 记录 ， 客 户 每 次 调用 read 所 返回 的 也 将 是 1 个 字 节 。 这 里 碰巧 的 是 源 自 
Berkeley 的 实现 默认 支持 MSG_EOR 标 志 。 不 过 这 一 点 没有 写 在 正式 文档 中 ， 在 生 
产 性 代码 中 不 应 该 使 用 。 我 们 这 儿 使 用 它 作 为 表现 字 节 流 协议 和 面向 记录 协议 
之 差异 的 一 个 例子 。 从 实现 角度 看 ， 每 个 输出 操作 都 进入 一 个 内 存 缓冲 区 
(mbuf) ，MSG_EOR 标 志 由 内 核 随 mbuf 从 发 送 套 接 字 转移 到 接收 套 接 字 的 接收 
缓冲 区 维持 在 mbuf 中 。 调 用 read 时 MSG_EOR 标 志 仍 然 依附 在 每 个 nbuf 上 ， 因 此 
通用 内 核 read 例 程 〈 它 支持 MSG_EOR 标 志 ， 因 为 一 些 协议 使 用 它 ) 独自 返回 每 
个 字 节 。 如 果 我 们 改 用 recvmsg 取 代 read， 它 将 在 每 次 返回 一 个 字 节 时 还 在 


msg_flags 成 员 中 返回 MSG_EOR 标 志 。 这 个 特性 并 不 适用 于 TCP， 因 为 发 送 端 
TCP 从 来 不 看 所 发 送 mbuf 中 的 MSG_EOR 标 志 ， 而 且 即 使 它 看 了 ， 它 也 无 法 在 
TCP 首 部 中 把 这 个 标志 传递 给 接收 端 TCP。 (感谢 Matt Thomas 指 出 这 个 没有 写 
在 文档 中 的 “特性 ”。 ) 


图 E-13 给 出 了 这 个 程序 的 实现 。 


debugibackog.« 
- #include 'unp. Ll." 
2 #deEine PORT 9999 
3 #detine ADDR "127.9.0.1" 
4 #define MAXDACKLCG 100 


f+ globals */ 
Struc- cockacdr in serv; 
pide pid; /* of child ay 
int pip2id|2); 
34define pfd pipefd[1] /* parent's end */ 
define cfd pipefd[?! /* child's end */ 
/* function prototypes */ 
vaid do_parent (void) ; 
void dz shild(void): 
int 
main[int argc, char **argv| 
{ 
i= (argc != 1) 
err quit ("ugage: backlog"); 
Sokel pair (AF TINTX, SOCK STREAM. 0, pipefd): 
bzeroi&serv. sizeof {serv)); 
serv.cin family = AF INST; 
serv.sin part = htons (PORT) ; 
Inez_pton;AF_INET, ADDR, &serv.sin adir); 
i= ( (pid = Fcrx()) == 9) 
do_shild(!; 
else 
do_parent (); 
SG) 
} 
void 
parent alrm(int signo; 
{ 
return; /* juez interrupt blocked comect() */ 
} 
void 
3o paren- (void; 
int bazklog, j, k, junk, fd[MAXBATCKLOG - 1]; 
Close (cfd) ; 
Signal (SIGALEM, perent_alrm) r 
for l|backlug = ^: backlog <= 14: backloges) { 
printf ("cackicg = td: ", backlog); 
Wr-teirzfd, &backloc, sizeof{inti); /* tell child value */ 
Read(pEd, &junk, sizect(:nt]), /* wait tor caild */ 
fcr (j = L; j <= MAXBACKLOG; j++) * 
fd[j] = Socket(AF 7NET, SOCK_STRRAM, 0); 
alar-(2!; 
if (conrectifd[j], (SA * | &ssrv, sizeofíservj) < 0) | 
it (errno !- 3INTR) 
ere wyw(*coucL «error, j= 40", j); 
printf ("zimeout, $d connections complezec\n", j 1); 
for (k = 1; k <= 3; K++) 
Clcss (fd X1); 


£4 breek; /* next value of backlog */ 
) 


J 
Se alarm(t); 


E5 ) 

SG if |j > MAXBACKLOS) 

sa printf ("td counections? n". MAXBACKLOG) ; 

et 

€1 E Alec = -li /* tell child we'rs all done #/ 
Cz Wrize(pfd. &backloq, sizeof {int)) 

€2 | 

€4 void 


€S do chíld(voiíd) 


€7 | int liczentd, ae junk; 

€€ const int 2n = 

cs Close (pid) ; 

70 Read(cfd, &oacklog, &izeot(int)); /* wait for parent */ 

71 while (backlog »- 9} 

?2 listenfü = SockeL(AF -NZT, SOCK SIREAM. 2); 

Jà Resins Hehe eee SOL, SOCKET, SU REUSZADDR, “on, sizeof (on) !; 
74 Bindilictenfd, (SA *) &cerv, cizssfloerv)); 

75 Listen(listenfd, back og); /* start che listen */ 

5€ Write lcfa, sunk, cizeof(irt)): /* tell parent */ 

75 Readicfd, backlog, s-zeof(int.!; /* iust wait for parent */ 
d: Slese |lister.fd);/* closes all qusued connections, too * 

75 

BO 


denugihacktlag c 


,排队 连接 数 


图 E-13 ”确定 不 同 的 backlog 值 对 应 的 真 


T 
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161 ” 套 接 字 描 述 符 是 在 父子 进程 之 间 共 享 的 ， 因 此 它 的 引用 计数 为 2。 要 
征 父 进程 调用 close， 那 么 这 只 征 把 该 引用 计数 由 2 减 为 1， 而 且 有 既然 它 仍然 六 
于 0，FIN 就 不 发 送 。 这 就 是 使 用 shutdown 画 数 的 另 一 个 理由 : 即使 描述 符 的 引 
用 计数 仍然 大 于 0，EFIN 也 被 强迫 发 送出 去 。 


16.2 ” 父 进程 将 继续 写 出 到 已 经 接收 FIN 的 套 接 字 。 它 发 送 给 服务 器 的 第 一 
Qe 将 引发 RST 响 应 ° 此 后 的 那个 write 调 用 将 导致 内 核 像 我 们 在 5.12 市 讨论 
过 的 那样 回 父 进程 发 送 SIGPIPE 信 和 号。 


16.3 ee 父 进 进程 发 送 STGTERM 信 和 号 时 ， 所 返回 的 
进程 ID 将 是 1 即 init 进 程 ， 它 是 所 有 孤儿 进程 的 继父 〈 也 就 是 说 它 继承 所 有 其 
父 进 程 在 、 EGMBUR EAO AHS PEAR) 。 子 进程 试图 向 Init 进 程 发 
送 这 个 信号 ， 但 是 没有 足够 的 权限 。 然 而 如 果 这 个 客户 程序 有 机 会 以 超级 用 户 
特权 运行 ， 从 而 允许 它 向 init 发 送信 号 ， 那 么 在 发 送 该 信号 之 前 应 该 检测 
getppid 的 返回 值 。 


16.4 ”如果 去 掉 这 两 行 ， select sia ° 。 不 过 select 调 用 将 立即 返 
回 ， 因 为 连接 建立 之 后 套 接 字 是 可 写 的 。 这 个 测试 加 goto 语 句 只 是 避免 不 必要 
地 调用 Select。 


165 “如果 服务 器 在 accept 调 用 返回 之 后 立即 发 送 数据 ， 而 当 三 路 握手 的 
第 二 个 分 世 到 达 以 在 客户 端 完成 连接 的 时 候 客户 主机 却 比 较 忙 〈 图 2-5) ， 那 么 
来 自 服务 器 的 数据 可 能 在 客户 的 connect 调 用 返回 之 前 到 达 。 举 例 来 说 ，SMTP 
以 便 给 客户 发 送 一 个 
BRIK E ° 
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第 17 章 


17.1 无 关 紧 要 ， 因 为 图 17-2 中 union 的 前 3 个 成 员 都 是 套 接 字 地 址 结构 。 


第 18 章 


181 sdl_nlen 成 员 将 是 5，sd1l_alen 成 员 将 是 8。 整 个 sockaddr_dl 
结构 需要 21 个 字 节 ， 在 32 位 体系 结构 上 则 疝 上 侈 入 成 24 个 字 节 (TCPv2:889 
D 


18.2 内核 的 响应 绝 不 发 送 到 这 个 套 接 字 。S0O_USELOOPBACK 套 接 字 选项 
确定 内 核 是 否 把 应 答 发 送 给 发 送 进程 ，TCPv2 第 649~650 页 讨论 了 这 一 点 。 它 的 
默认 设置 是 开启 ， 因 为 大 多 数 进 程 需要 这 些 应 答 。 禁 止 该 选项 将 防止 内 核 把 应 
答 发 送 给 发 送 进程 。 


第 20 章 


20.1 如 采 你 接收 到 许多 ae 答 ， 它 们 每 次 到 达 的 先后 顺序 不 应 该 都 一 样 。 不 
-a 应 答 通常 是 第 一 个 ， 因 为 其 数据 报 的 来 往 并 不 出 现在 真正 的 
HAE o 


20.2 FreeBSD 上 当 信 和 号 处 理 函 数 往 管道 中 写 入 一 个 空 字 节 并 返回 之 后 ， 
Select 返回 EINTR。select 再 次 被 调用 时 返回 管道 的 可 读 条 件 。 


第 21 章 


21.1 我 们 运行 该 程序 得 不 到 任何 输出 。 为 了 防止 进程 偶尔 收取 并 非 期 待 的 
多 播 数据 报 ， 内 核 不 把 接收 到 的 多 播 数 据 报 递 送 给 未 曾 在 其 上 执行 过 任何 多 播 
操作 Ene 的 目的 地 套 接 字 。 这 里 发 送 的 那个 UDP 数据 报 的 目的 
地 址 是 224.0.0.1， 它 是 所 有 具备 多 播 能 力 的 节点 都 必须 参加 的 所 有 主机 组 。 该 
UDP 数据 报 作为 不 多 播 以 太 网 帧 发 送 ， 因 而 所 有 具备 多 播 能 力 的 节点 都 接收 


zi 


NS 


到 它 ， 因 为 它们 都 属于 这 XX 个 组 。 然而 内 核 丢 弃 了 接收 到 的 数据 报 ， 因 为 捆绑 了 
daytime 端 口 的 那个 进程 (通常 就 是 inetd) 未 曾 设 置 任何 多 播 选项 。® 
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212 ”图 E-14 给 出 了 调用 bind 捆 绑 多 播 地 址 和 端口 0 的 main 范 数位 单 修改 
版 本 。 


measi/edpcl06.c 


1 dinclYule “unp.h" 


2 int 
3 main(int arqc, cnar **arqv; 


4 
5 iut so-ckfd; 

6 eceklen t saler; 

7 struct sockaddr “cli, “serv; 

A if (argc != 2} 

9 err zuit ("usage: udpclic6 «IPaddressgs"); 

10 ecekid = Udp clienti(arqv[1], "daytime", ivoid **) Sserv, &ealen) ; 
11 cli - Malloc{salen) ; 

12 mencpyicli, serv, salen); /* copy sccke- address struct */ 
13 ecek set port(cli, salen, 0); /* and eet tort to U v/ 

14 Bind/sockf3, cli, salen); 

15 du Clitstdin, eockfd, serv, salen); 

i6 exitio): 


mcasvirdpx liüt. c 
图 E-14 ”捆绑 多 播 地 址 的 UDP 客 户 程 序 main 函 数 


不 幸 的 是 ， 我 们 党 试 运行 本 程序 的 3 个 系统 (FreeBSD 4.8、MacOS X 和 
Linux) 都 允许 如 此 bind， 随 后 发 送 的 UDP 数据 报 具 有 多 播 源 了 P 地 址 。9 


21.3 ”在 文 持 多 播 的 主机 aix 上 这 么 做 的 输出 如 下 : 


aix % ping 224.0.0.1 
224.0.0.1: 56 data bytes 
64 bytes from 192.168.42.2: icmp_seq=0 ttl-255 time=0 ms 
64 bytes from 192.168.42.1: icmp seq-0 ttl-64 time-1 ms (DUP!) 
^C 
----224.0.0.1 Statistics---- 
1 packets transmitted, 1 packets received, +1 duplicates, 0% packet loss 
round-trip min/avg/max - 0/0/0 ms 


图 1-16 中 右 侧 以 太 网 上 两 个 主机 都 给 出 响应 。@ 


为 了 防护 特定 拒绝 服务 攻击 ， 某 些 系统 默认 情况 下 对 于 广播 或 多 播 ping 不 给 
出 啊 应 。 为 了 让 主机 freebsd 给 出 啊 应 ， 我 们 必须 使 用 如 下 命令 进行 配置 : 


| freebsd % sysctl net.inet.icmp.bmcastecho=1 


21.5 (81073741824 CHR BOE ABER LA 429496729645 10.250 ° FEAR LA 
1000000 得 到 250000， 它 以 微 稍为 单位 束 是 1/4 秒 。 
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最 大 的 整数 小 数 部 分 是 4294967295， 它 除 以 4294967296 得 到 
0.99999999976716935634。 再 乘 以 1000000 并 截 成 整数 得 到 999999， 它 就 是 最 大 
的 微 秒 数 。 


第 22 章 


221 我 们 已 经 知道 sock_ntop 使 用 目 己 的 静态 缓冲 区 存放 结果 。 如 采 我 
们 在 同一 个 printf 中 作为 参数 调用 它 两 次 ， 第 二 次 调用 吏 会 履 写 第 一 次 调用 的 


ZR 


i. 是 的 ， 如 果 应 答 中 包含 0 个 字 节 的 用 户 数据 的 话 〈 也 就 是 仅 有 一 个 
hdrZat4)) ° 


223 ”由 于 select 并 不 修改 指定 其 时 间 限 制 的 timeval 结 构 ， 因 此 你 必须 
记 下 第 一 个 分 组 的 发 送 时 刻 ( 它 已 由 rtt_ts 以 微 秒 为 单位 返回 ) 。 当 select 
返回 套 接 字 的 可 读 条件 时 ， 记 下 当前 时 刻 ， 如 果 需 要 再 次 调用 recvmsg， 那 就 
给 select 计 算 新 的 超时 值 。 


22.4 第 用 的 技巧 就 如 我 们 在 22.6 节 所 做 的 那样 给 每 个 接口 地 址 创建 一 个 套 
接 字 ， 然 后 束 从 请 求 到 达 的 那个 套 接 子 发 送 相应 的 应 答 。 


22.5” 既 不 给 出 主机 名 参数 也 不 设置 AI_PASSIVE 标 志 束 调用 
getaddrinfo 会 导致 它 假定 获取 本 地 主机 地 址 0::1 (IPv6) 或 127.0.0.1 (IPv4) 
的 信息 。 回 顾 一 下 ， 我 们 知道 在 主机 支持 IPv6 的 前 提 下 ，getaddrinfo 先 于 
IPv4 套 接 字 地 址 结构 返回 IPv6 套 接 字 地 址 结构 。 如 果 主 机 同时 支持 这 两 个 协议 ， 
那么 udp_client 中 的 socket 调 用 尝试 将 以 地 址 族 为 AF_INET6 的 首次 尝试 成 
功 告 终 。 


AR 


图 E-15 是 这 个 程序 的 协议 无 关 版 本 。 


4 maintint arge, char **argv! 

s 1 

6 ict socktd, tamily, cort; 

7 const int on = 1; 

8 pid t pid; 

3 sockler E salen; 

10 struct sockaddr tsa, "wild; 

I etrucz ifi info tifi, *ifinead: 

12 it (arde == 2) 

13 SockEd = Udz client:!NULL, argv|l]. |void **) asa, Saaler! ; 
14 else if (argc == 3) 

15 sockfd = Udy clienti4rgve[1], argve[2], (void **) ssu, esalen); 
16 else 

17 err quit("uzage: udpserv04 [ <host> ] «service or cort>"); 
18 family = sa »3a fzmily; 

19 porz = sock get porz's&. salen; 

20 Close (sock f); jS we just aant fanily, port, salen */ 

21. for (ifihead = ifi = Get ifi info(familv, 1): 

22 ifi |= NULL; ifi = ifi-»ifi next] | 

23 /* bind unicast address */ 

24 seckEd = Sockat (family, SCCK DGRAM, 0); 

25 Setscexopt [sockid, SCL_SOCKET, SO_REUSEADDR, aon, slzeof[cn)); 
26 Sock set port(ifi-»ifi adór, salen, port!; 

27 Bind(sockfd, ifi-»ifi addr, salen!; 

28 printf ("bound tsin", Sock nrop!if--»ifi addr, salen); 

29 if | ipid - Ferki) -- 0) i /* enild »/ 

30 mI ecro(sockfd, ifi->ifi addr, sealer); 

33 exit (0); /* never executed */ 

32 j 

33 a= lifi-»ifi flags & IFF_ERCADCAST) { 

34 f* try o bird breacas /— address 4 / 

35 Sokfd - Socket (family, SOCK DGRAN, 0); 

36 Seteockcptieockfa, SOL EOCKET, SU REUEE^DDR, Lon, sizeof'on;); 
3" co ocb cort(iti-»iti brdaddr, salen, porti; 

38 if ibini(sockf3, ifi >if: brdadidr, saler) < C; 

EE] if (errng == EADORINUSE) | 

40 prictÉ4"RATDSTNUSE: s\n", 

aL Scek_ntop [if i->ifi_brdsdsr, salient); 
12 Cloze (eocktd) ; 

43 continue; 

44 } else 

45 err sys ("bind error far $s", 

a6 Sce« ntopc.ifi-»ifi PraAadir, s212n)]): 

a" ) 

48 printt ("bound so\n", Sook_ncop(iti-siti_brdacdr, caler); 
49 if | ipid = Fork()! == C; | /* child */ 

50 wydo_echo(sockfd, ifi-»ifi brdaddr. salen); 

LE exit t£); J* never execute) */ 

s2 } 

b3 } 


54 } 


55 /* bind wildcard add-sss */ 

56 scckfd = Socker (family, SOCK_NGRAM, Ot; 

57 Setsockopzisockia, SUL SUCKET, SO_REUSENDDK, Gon, 2-zecf(on)!; 
50 wild - Mallocí(salen); 

59 mencpyiwild. ss, salen!; /* ccpy femily and sort */ 
6c scck set wilc(wild, salen): 

bi Bin3/sockfd, wild, ealen); 

62 printfÉ|'bounc &s\n", Sock ntop(w:ld, salen)}; 

63 if ( (pid = Fork(}) == 0) [/* child »/ 

64 mycg echsisockfd, wild, salen); 

65 exit(0); /* never executed */ 

66 ! 

69 exit(o); 

68 } 

6S void 

7C wydg echo!int sockf=, SA *myadd-, socklen_t salen) 

nt 

Ya int ny 

73 cnar mesgIMAXLINE] ; 

74 sccklen t — ler; 

78 strucz sockaddr *cli; 

76 cli = Malloc(sozlcn); 

77 ey 全 { 

7A le m salen; 

7s n= Rezvfrcn(sockfd, mesg, MAXLINE, C, cl-, Slen); 
8c printz:(*'child èd, datagram from 4s", getc:d;), Sock ntoclcli, leni); 
81 p-intt(*, to %s\n", Sock atcp(myadd-, salen)); 

A2 Serdto(socxfd, mesg, n, 0, cli, leni; 

83 

84 } 


advio/udpserv04.c 


到 E-15 ”22.6 节 中 程序 的 协议 无 关 版 本 


第 24 章 

24.1 是 的 。 第 一 个 例子 中 的 2 个 字 节 是 随 单个 紧急 指针 发 送 的 ， 该 指针 指 
向 的 是 b 后 面 的 字 节 。 第 二 个 例子 (两 个 函数 调用 ) 中 首先 发 送 的 是 a 以 及 指向 
它 之 后 字 节 的 紧急 指针 ， 接 着 以 另外 一 个 TCP 分 节 发 送 的 是 b 和 指向 它 之 后 字 节 
的 另外 一 个 紧急 指针 。 

24.2 ”图 E-16 给 出 了 使 用 po11 的 版 本 。 
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oob/tcprecvO3r.c 
1 #include "unp.h" 


2 int 

5 main(int argc, char **argv) 

& | 

5 int lzctenzd, cconntd, n, juctreadoob - U; 

6 char suff [100] ; 

7 struct pollfd pollfa!l); 

A if (ezune == 2) 

9 liscenfd = T-p listeniNULL. argv;1], NULL); 

10 else if [argc == 3) 

11 liscenfd = Tcp lisceníargv[1], argv[2], NULL); 

12 esa 

13 err quit("usags: tcprecvOo3p [ «nost* ] «portH»"); 
14 confà = Accept (listcnfd, NULL, NULL); 

15 polifa[3].fd =- conrf3: 

16 polifa[uU].evente = PULLRUNCRHM; 

17 Poet cs 3 4 

18 if (jusLtreadcob == 0! 

19 polifd[0].evanzs |=- POLLRCBAND; 
20 Pollipollfd. 1, INTTIM!; 
21 if (polifd{a) revents & POLLRCRAMD) { 
32 n = Recv(ccnnfd, butz, cisect (butt)-1, MEG OCB); 
25 baffin] = 0; /* null terminate */ 

: printi|'read $d OOB byte: ts\n", n, buff); 
25 juscreedoob = 1; 
36 politd[0].evsnzco &= -POLLRDZAND; /* turn bit off */ 
$^ 1 
28 if (pollfd[0] revents & POLLROMCRM) ( 
29 iE ( (n - Read(conntd, butt, sizeot(butff)-1]! -- O) f 
30 pzinti(*received DOP\n") 

31 exi-(0) ; 

32 ] 

33 battin) = 0; /* nl terminate */ 

34 printz|'read $d bytes: ts\n", n, buff); 

35 juastreadoot = 4; 
36 } 
3? 

38 ] 


cob/icprecvü3r.c 


D 


程序 的 修改 版 本 


E-16 [ipollft#selecti 124-6 


第 25 章 


25.1 ”这样 的 改动 引入 了 一 个 错误 。 问 题 在 于 nqueue 古 在 处 理 数组 元 素 
dg[iget] 之 前 递减 的 ， 导 致 信 号 处 理 函 数 有 可 能 把 新 的 数据 报 从 套 接 字 读 入 到 
这 个 数组 元 素 。 


第 26 章 


26.1 使 用 fork 的 例子 将 会 使 用 101 个 描述 符 ， 其 中 1 个 是 监听 套 接 字 描 壕 
符 ， 其 余 100 个 是 已 连接 套 接 字 描 述 符 。 不 过 101 个 进程 (1 个 父 进程 ，100 个 子 
进程 ) 的 每 一 个 只 打开 着 一 个 描述 符 (忽略 任何 其 他 描述 符 ， 例 如 服务 器 不 是 


守护 进程 时 的 标准 输入 ) 。 然 而 线程 化 的 服务 器 是 单个 进程 中 有 101 个 描述 符 ， 
每 个 线程 (包括 主线 程 ) 处 理 其 中 一 个 。 


26.2 TOPE RESZ IEF 列 的 最 后 2 个 分 证 (服务 器 的 FIN 和 客户 对 于 该 FIN 的 
ACK) 将 不 会 交换 。 这 使 得 连接 的 客户 端 一 直 处 于 FIN_WAIT_2 状 态 (图 2- 
4) 。 源 自 Berkeley 的 实现 在 客户 端 保持 这 种 状态 超过 114 分 钟 时 就 全 超时 断 连 
(TCpv2 第 825~827 页 ) o 服务 右 还 可 能 最终) 耗 尽 描述 符 


263 ”这 个 消息 应 该 在 主线 程 已 从 套 接 字 读 入 EOF 而 另 一 个 线程 却 还 在 运行 
E 这 么 做 的 一 个 简单 方法 是 声明 名 为 done 且 初始 化 为 0 的 另 一 个 外 部 变 
o 线程 copyto 在 运 回 之 前 把 该 变量 设置 成 1° 主线 程 检 查 该 变量 ， 如 采 其 值 
Hop ui 既然 设置 该 变量 的 线程 只 有 一 个 ， 因 而 没有 任何 同步 
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第 27 章 


27.1 没有 变化 ， 所 有 系统 都 是 邻居 ， 因 此 严格 的 源 路 径 等 同 于 宽松 的 源 路 


ÍT ° 
27.2 ”我 们 会 在 缓冲 区 的 未 尾 放 一 个 EOL ( 值 为 0 的 单个 字 节 ) e 


273 ” ping 创建 的 是 一 个 原始 套 接 字 (第 28 章 ) ， 因 此 能 够 获取 使 用 
recvfrom 读 入 的 每 个 数据 报 的 完整 iP 首部， 包括 任何 IP 洗 项 在 内 。 


27.4 ”因为 rlogind 是 由 inetd 激 活 的 (13.5 广 ) ， 而 描述 符 0 正 是 通达 客 
户 的 套 接 字 。 


275 ”问题 在 于 setsockopt 的 第 五 个 参数 以 指向 长 度 的 指针 取代 长 度 本 
喘 。 这 个 缺陷 可 能 十 在 开始 使 用 ANSI C 原 型 时 修正 的 。 


这 个 缺陷 结果 是 无 害 的 ， 因 为 正如 我 们 所 提 ， 禁 止 IP_0PTIONS 和 套 接 字 选 
项 既 可 以 指定 一 个 空 指 针 作为 第 四 个 参数 ， 也 可 以 使 用 值 为 0 的 第 五 个 〈 长 度 ) 
参数 (TCPv2 第 269 页 ) ° 


第 28 章 


28.1 IPVv6 首 部 中 的 版 本 字段 和 下 一 个 首部 字段 是 无 法 得 到 的 。 净 和 丛 长 度 字 
段 或 者 作为 某 个 输出 画 数 的 一 个 参数 ， 或 者 作为 来 自 某 个 输入 函数 的 返回 值 总 
是 可 得 到 ， 但 是 如 果 需 要 特大 净 答 选项 ， 那 么 真正 的 选项 本 身 应 用 进程 是 得 不 
到 的 。 分 片 首 部 应 用 进程 也 得 不 到 。 


28.2 ”最 终 客 户 的 套 接 字 接收 缓冲 区 会 被 填 满 ， 导 致 作为 服务 器 的 TIcmpd 守 
护 进 程 的 write 调用 阻塞 。 我 们 不 希望 发 生 这 种 情况 ， 因 为 它 使 得 icmpd 在 任 
何 套 接 字 上 都 停止 处 理 新 的 数据 。 最 容易 的 解决 办 法 是 让 icmpd 把 它 跟 客 户 的 
Unix 域 连接 的 本 地 端 设 置 成 非 阻 塞 式 。 icmpd 然 后 必须 改 为 调用 write 以 取代 
它 的 包 庄 函数 Write， 并 仅仅 忽略 ENWOULDBLOCK 错 误 ° 


28.3 ” 源 自 Berkeley 的 内 核 默 认 人 允许 在 原始 套 接 字 上 的 广播 〈TCPv2 第 1057 
Ui) 。SO_BROADCAST 套 接 字 选项 只 有 UDP 套 接 字 才 需 指 定 。 


28.4 我 们 的 程序 既 不 检查 多 播 地 址 ， 也 不 设置 TP_MULTICAST_IF 套 接 字 
选项 ， 因 此 内 核 可 能 通过 搜索 224.0.0.1 的 路 由 表 项 选 定 外 出 接口 。 我 们 也 不 设置 
IP_MULTICAST_TTL 套 接 字 选项 ， 因 此 它 默 认 成 1， 这 是 合理 的 。 
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第 29 章 


29.1 这 个 标志 表示 跳 转 缓冲 区 已 由 sigsetjmp 设 置 (图 29-10) » Rix 
个 标志 看 似 多 余 ， 但 是 在 信号 处 理 函 数 建立 之 后 和 调用 sigsetjmp 之 前 ， 
SIGALRM 信 和 号 被 递交 的 机 会 还 是 存在 的 。 即 使 程序 本 身 不 会 导致 产生 该 信号 ， 
它 也 可 能 以 其 他 方式 产生 ， 壁 如 使 用 ki11 命 令 。 


第 30 章 


30.1 父 进程 保持 监听 套 接 字 打 开 着 是 为 以 后 需要 fork 额 外 的 子 进 程 而 做 
准备 〈 这 是 对 于 现行 代码 的 一 种 改进 ) 。 


30.2 ”和 是 的 ， 数 据 报 套 接 字 能 够 取代 字 节 流 套 接 字 用 于 传递 搞 述 符 。 在 使 用 
数据 报 套 接 字 情 况 下 ， 当 某 个 和子 进程 过 早 终止 时 ， 父 进程 在 流 管道 的 拥有 端 接 
收 不 到 EOF， 不 过 父 进程 可 以 使 用 SIGCHLD 信 号 达到 这 个 目的 。 这 种 能 够 使 用 
SIGCHLD 的 情形 与 28.7 节 中 的 icmpd 守 护 进 程 情形 相 比 的 一 个 差别 是 : 后 者 的 
客户 和 服务 器 之 间 不 存在 父子 关系 ， 因 此 流 管道 上 的 EOF 十 服务 套 检 测 某 个 客 
已 消失 的 唯一 办 法 。 


第 31 章 


"n 我 们 假定 流 关闭 时 协议 的 默认 处 理 束 古 顺 序 释 放 ， 这 对 TCP 来 说 是 正 
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ee o 我 们 在 不 支持 多 播 的 一 个 主机 (UnixWare) 上 运行 这 个 
YF o 


unixware % sock -s 9999 & 以 通 配 地 址 启动 第 一 个 服务 器 


[1] 29697 
unixware % sock -s 206.62.226.37 9999 不 使 用 -A 尝试 启动 第 二 个 服务 器 
can’ t bind local address: Address already in use 
unixware % sock -s -A 206.62.226.37 9999 & 使 用 -A 再 次 尝试 ， 成 功 
[2] 29699 
unixware % sock -s -A 127.0.0.1 9999 & 使 用 -A 启动 第 三 个 服务 器 ， 成 功 
[3] 29700 

unixware % netstat -na | grep 9999 

tcp 9 9 127.0.0.1.9999 Au LISTEN 

tcp 0 9 206.62.226.37.9999 No LISTEN 

tcp 0 0 * 9999 uae LISTEN 


mw 


一 译 者 注 


2 be 。 我 们 首先 在 不 文 持 多 播 的 一 个 主机 (UnixWare) E 
WV? 


unixware 9; sock -s -u -A 206.62.226.37 8888 & 第 一 个 服务 器 启动 
[4] 29707 


unixware % sock -s -u -A 206.62.226.37 8888 
can’ t bind local address: Address already in use 不 能 启动 第 二 个 服务 器 


我 们 给 这 两 个 运行 实例 都 指定 了 SO_REUSEADDR 选 项 ， 但 是 它 不 起 作用 。 
我 们 接着 在 支持 多 播 但 不 支持 SO_REUSEPORT 选 项 的 一 个 主机 (Solaris 2.6) 上 
党 试 。 


solaris26 % sock -s -u 8888 & 第 一 个 服务 器 
[1] 1135 

solaris26 % sock -s -u 8888 

can’ t bind local address: Address already in use 


solaris26 % sock -s -u -A 8888 & E 二 个 服务 器 ;成功 
solaris26 % netstat -na | grep 8888 们 看 到 LEA 

*.8888 Idle 

*.8888 Idle 


个 系统 上 第 一 个 bind 不 必 指 定 SO_REUSEADDR， 但 是 第 二 个 起 必须 指 
最 后 我 们 在 既 支 持 多 播 又 支持 SO_REUSEPORT 选 项 的 BSD/OS 3.0 上 进行 尝试 。 
我 们 首先 给 一 前 一 后 两 个 服务 器 尝试 SO_REUSEADDR 选 项 ， 但 是 它 不 起 作用 © 


m ah 


bsdi % sock -u -s -A 7777 & 
[1] 17610 


bsdi % sock -u -s -A 7777 
can't bind local address: Address already in use 


Beg HABT SARS ae I AST ARS az ESO REUSEPORTZEJJI » JX 
eee, 因为 完全 重复 的 捆绑 要 求 共 享 同 一 捆绑 的 所 有 套 接 字 都 使 用 该 选 
IJI o 


bsdi % sock -u -s 8888 & 
[1] 17612 


bsdi ?6 sock -u -s -T 8888 
can't bind local address: Address already in use 


最 后 给 两 个 服务 器 都 指定 SO_REUSEPORT 选 项 ， 这 是 起 作用 的 。 


bsdi % sock -u -s -T 9999 & 
[1] 17614 
bsdi % sock -u -s -T 9999 & 
[2] 17615 


bsdi % netstat -na | grep 9999 
udp 0 0 * ,9999 
udp 0 0 * ,9999 


一 一 译 痢 注 


@“Connection refused" (连接 被 拒 ) 错误 的 返回 是 因为 sock 程 序 调用 
connect， 导 致 服务 器 主机 返回 ICMP 端 口 不 可 达 错 误 。 译 者 注 


@@ 本 书 第 2 版 Stevens 先 生 可 能 据 于 早期 ITPv6 规 范 得 出 UDP/IPv6 用 户 数据 最 大 为 65 

48777) (65535-40-8) ， 第 3 版 新 作者 尽管 一 直 在 强调 最 新 的 IPv6 规 范 ， 在 

Ee ee 0 的 推导 。 译 者 对 此 做 了 修 
o 译 者 注 


@@ 本 书 第 2 版 解答 如 下 。 我 们 运行 该 程序 的 输出 如 下 : 


solaris % udpcli05 224.0.0.1 
hi 


from 206.62.226.34: Thu Jun 19 17:28:32 1997 
from 206.62.226.43: Thu Jun 19 17:28:32 1997 
from 206.62.226.42: Thu Jun 19 17:28:32 1997 
from 206.62.226.40: Thu Jun 19 17:28:32 1997 
from 206.62.226.35: Thu Jun 19 17:28:32 1997 


5 个 给 出 啊 应 的 主机 运行 的 操作 系统 有 AIX、BSD/OS、Digital Unix ll 
Linux。 没 有 给 出 响应 却 具 有 多 播 能 力 的 仅 有 节点 是 运行 Solaris 2.5 的 主机 和 
Cisco 路 由 器 。 

这 里 发 送 的 那个 UDP 数据 报 的 目的 地 址 是 224.0.0.1， 它 是 所 有 具备 多 播 能 力 的 节 


点 都 必须 参加 的 所 有 主机 组 。 该 UDP 数 据 报 作为 一 个 多 播 以 太 网 帧 发 送 ， 因 而 
所 有 具备 多 播 能 力 的 市 点 部 接收 到 它 ， 因 为 它们 都 属于 这 个 组 。 给 出 啊 应 的 主 
册 都 把 接收 到 的 数据 报 传递 合 UDP 版 本 的 daytime 服 务 器 ( 它 通常 是 inetd 的 一 部 
4)  ， 而 不 管 其 套 接 字 是 否 已 经 加 入 所 有 主机 组 。 然 而 Solaris 的 实现 却 要 求 目的 
MEE ATI BE LL BE 接收 该 数据 报 。 
本 例子 表明 决 不 是 设计 来 响应 多 播 数据 报 的 UDP 程 序 也 能 接收 到 多 播 数据 报 。 
我 们 在 第 er um : 决 不 是 设计 来 啊 应 广播 
数据 报 的 UDP 程 序 也 能 接收 广播 数据 报 。 


@ 本 书 第 2 版 接着 解答 如 下 。 不 幸 的 是 ， 我 们 淮 试 运行 本 程序 的 3 个 系统 
(BSD/OS ` Digital aca Solaris 2.5) 都 允许 如 此 bind， 随 后 发 送 的 UDP 数据 
报 具 有 多 播 源 IP 地 址 。 给 出 响应 的 那 5 个 系统 〈 跟 上 一 道 习 题 一 样 ) 都 在 应 答 中 
对 换 源 IP 地 址 和 目的 IP 地 址 ， 结 果 所 有 5 个 应 答 都 是 多 播 数据 报 ! 接收 了 这 些 应 
答 的 具有 多 播 能 力 的 客户 主机 倒 没 对 它们 过 度 反 应 ， 因 为 这 些 应 答 的 目的 端口 
就 是 最 初 捆绑 多 播 地 址 时 由 客户 主机 的 内 核 选 定 的 临时 端口 ， 当 时 该 端口 没有 
EAE PEA Beer E 。 | 对 于 多 播 UDP 数 据 报 ，ICMP 不 产生 端口 不 可 达 消 息 。 


@ 本 书 第 2 版 解答 如 下 。 在 文 持 多 播 的 主机 solaris 上 这 么 做 的 输出 如 下 : 


solaris % ping 224.0.0.1 

224.0.0.1: 56 data bytes 
bytes from solaris.kohala.com (206.62.226.33): icmp_seq=0. time=4. ms 
bytes from linux.kohala.com(206.62.226.40): icmp_seq=0. time=9. ms 
bytes from aix.kohala.com (206.62.226.43): icmp seq-0. time=11. ms 
bytes from bsdi.kohala.com (206.62.226.35): icmp_seq=0. time=13. ms 
bytes from alpha.kohala.com (206.62.226.42): icmp seq-0. time-15. ms 
bytes from sunos5.kohala.com (206.62.226.36): icmp_seq=0. time=17. ms 
bytes from bsdi2.kohala.com (206.62.226.34): icmp seq-0. time-54. ms 
bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time-75. ms 


--224.0.0.1 Statistics---- 
1 packets transmitted, 8 packets received, 8.00 times amplification 
round-trip (ms) min/avg/max - 
solaris % ping 224.0.0.2 
224.0.0.2: 56 data bytes 
64 bytes from bsdi.kohala.com (206.62.226.35): icmp seq-0. time-3. ms 
64 bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time-24. ms 
^^? 

--224.0.0.2 PING Statistics ---- 
1 packets transimitted, 2 packets received, 2.00 times amplification 
round-trip (ms) min/avg/max - 3/13/24 


对 于 所 有 主机 组 ， 本 书 第 2 版 图 1-16 中 顶部 以 太 网 上 除 没有 多 播 能 力 的 
unixware 外 所 有 主机 都 给 出 响应 (当然 包括 发 送 主 机 本 身 ) o 对 于 所 有 路 由 器 
组 ， 我 们 期 待 bsdi 给 出 响应 ， 因 为 它 是 所 在 子 网 上 的 多 播 路 由 器 ， 有 一 个 通 往 
MBone (B.217) 的 隧道 ， 有 运行 着 mrouted 。 路 由 器 gw 也 给 出 响应 ， 不 过 它 并 
不 扮演 多 播 路 由 器 角色 。 译 者 注 
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网 际 网 协议 在 4.4BSD-Lite 操 作 系统 上 的 实现 。 本 书 称 之 为 
TCPv2 ° 


欢迎 来 到 异步 社区 ! 
异步 社区 的 来 历 


异步 社区 (www.epubit.com.cm 是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书 


旗舰 社区 ， 于 2015 年 8 月 上 线 运 营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印 刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 


资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 
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仁 区 里 都 有 什么 ? 
购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技 术 、 数 据 
科学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 
书 400 多 种 ， 部 分 新 书 实现 经书、 电子 书 同步 出 版 。 我 们 还 会 定 其 发布 
新 书 书 讯 


下 载 资源 
社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
就 可 以 免费 下 载 。 
与 作 译 者 互动 
很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 著 好 书 背后 有 


地 的 故事 ， 还 可 以 参 与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采 
访 题目 。 


灵活 优惠 的 购书 


S E Seen 纸 质 图 书 直接 从 人 
民 邮 电 出 版 社 书库 发 货 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 ”IEa 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


ARO uunc GRUT: 注册 成 为 社区 用 户 ， 在 下 单 购 


书 时 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 *”， 即 可 享受 电子 书 8 折 优惠 (本 优惠 券 只 可 使 用 
一 次 ) 。 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 
购买 ， 多 种 阅读 选择 。 


软 技能 ; 代码 之 外 的 生存 指南 
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任 区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勤 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 言 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 译 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 采 成 为 社区 认证 作 译 着 ， 还 可 以 重 受 异步 社区 提供 的 作者 专 孚 


特色 服务 。 
会 议 活动 早 知道 


您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 ; 


= Fi 


微 信 服务 号 


QQ 群 ， 368449889 
社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 
投稿 & 咨 询 : contact@epubit.com.cn 


s2 
看 完了 

如 宁 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@Depubit.com.cn， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 异步 社区 ， 参 与 本 书 讨论 。 

如 有 果 是 有 天 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@epubit.com.cn ° 
在 这 里 可 以 找到 我 们 : 


。 微 博 : @ 人 邮 和 异步 社区 
。 QQ#: 368449889 


